Mục tiêu chính của khai thác dữ liệu là để phát triển mô hình "tốt nhất" sau khi
một số xét nghiệm chẩn đoán để các mô hình cuối cùng được lựa chọn là một "tốt" mô hình
trong ý nghĩa rằng tất cả các hệ số ước tính có "quyền" dấu hiệu, họ
là ý nghĩa thống kê về cơ sở kiểm tra t và F, giá trị R2 là
hợp lý cao và Durbin-Watson d có giá trị chấp nhận được (khoảng 2),
vv Các chủ nghĩa thuần túy trong nghề nhìn xuống trên thực tế khai thác dữ liệu.
Theo lời của William Pool ". . . làm cho một quy luật thực nghiệm nền tảng,
chứ không phải là một ý nghĩa của lý thuyết kinh tế, luôn luôn là nguy hiểm. "
15 Một lý do cho" lên án "khai thác dữ liệu như sau.
danh nghĩa so Đúng Mức Ý nghĩa trong sự Hiện Diện của Data
Mining. Một nguy hiểm khai thác dữ liệu mà các nhà nghiên cứu không thận trọng đối mặt là
các cấp độ thông thường có ý nghĩa (α) như là 1, 5, hoặc 10 phần trăm không phải là
mức độ thực sự của ý nghĩa. Lovell đã gợi ý rằng nếu có c ứng cử viên
biến hồi quy trong đó k cuối cùng được lựa chọn (k ≤ c) trên cơ sở dữ liệu
khai thác, sau đó mức độ thực sự có ý nghĩa (α *) có liên quan đến mức độ danh nghĩa
có ý nghĩa (α) như sau
đang được dịch, vui lòng đợi..
