Mikolov et al. [2] trình bày các phương pháp tiêu cực lấy mẫu như một hiệu quả hơn
cách phát sinh embeddings từ. Trong khi tiêu cực lấy mẫu được dựa trên
mô hình bỏ qua-gram, nó là trong thực tế tối ưu hóa một mục tiêu khác nhau. Sau đây là
nguồn gốc của các mục tiêu tiêu cực lấy mẫu.
Hãy xem xét một cặp (w, c) của từ và ngữ cảnh. Đã cặp này đến từ các
dữ liệu huấn luyện? Hãy biểu thị bởi p (D = 1 | w, c) các xác suất (w, c) đến
từ các dữ liệu corpus. Tương ứng, p (D = 0 | w, c) = 1 - p (D = 1 | w, c) sẽ
có xác suất (w, c) không đến từ các dữ liệu corpus. Như trước đây,
giả sử có các tham số q kiểm soát phân phối: p (D = 1 | w, c; θ).
đang được dịch, vui lòng đợi..
