Một mối quan tâm rất chung chung và quan trọng trong quá trình chuẩn bị dữ liệu là hãy cẩn thận của "rò rỉ"
(Kaufman et al. 2012). Một rò rỉ là một tình huống mà một biến thu thập dữ liệu lịch sử
cho biết thông tin về các mục tiêu biến thông tin xuất hiện trong dữ liệu lịch sử
nhưng không phải là thực sự có sẵn khi các quyết định đã được thực hiện. Như một ví dụ, khi
dự đoán cho dù tại một điểm cụ thể trong thời gian một người truy cập trang web sẽ kết thúc phiên mình
hay tiếp tục lướt đến một trang khác, biến "tổng số các trang web truy cập trong
phiên giao dịch" là dự đoán. Tuy nhiên, tổng số lượng của các trang web truy cập trong phiên giao dịch
sẽ không được biết đến sau khi phiên giao dịch kết thúc (Kohavi et al., 2000) -Tại mà
điểm người ta sẽ biết được giá trị cho biến mục tiêu! Như một ví dụ minh họa,
xem xét dự đoán liệu một khách hàng sẽ là một "người tiêu tiền lớn"; biết các loại
của các mục mua (hoặc tệ hơn, số tiền thuế đã nộp) là rất tiên đoán, nhưng
không biết đến lúc quyết định (Kohavi & Parekh, 2003). Rò rỉ phải được xem xét
một cách cẩn thận trong khi chuẩn bị dữ liệu, vì chuẩn bị dữ liệu thường được thực hiện
sau khi thực tế, từ dữ liệu lịch sử. Chúng tôi trình bày một ví dụ chi tiết của một
rò rỉ thực sự mà đã được thử thách để tìm trong Chương 14.
đang được dịch, vui lòng đợi..