Bảng 6.8 2 × 2 Contingency bảng cho hai mục
Sữa Xrow
cà phê mc mc c
cà phê mc mc c
Xcol mm X
Bảng 6.9 So sánh Sáu biện pháp đánh giá mẫu Sử dụng Bàn dự phòng đối với đa dạng của các tập dữ liệu
Dữ liệu
Set mc mc mc mc χ 2 thang máy tất cả conf. max conf. Kulc. cosin
D1 10.000 1.000 1.000 100.000 90.557 9,26 0,91 0,91 0,91 0,91
D2 10.000 1000 1000 100 0 1 0,91 0,91 0,91 0,91
D3 100 1000 1000 100.000 670 8,44 0,09 0,09 0,09 0,09
D4 1000 1000 1000 100.000 24.740 25,75 0,5 0,5 0,5 0,5
D5 1000 100 10.000 100.000 8173 9,18 0,09 0,91 0,5 0,29
D6 1000 10 100.000 100.000 965 1,97 0,01 0,99 0,5 0,10
Ví dụ 6.10 So sánh sáu biện pháp đánh giá mô hình trên bộ dữ liệu điển hình. Các mối quan hệ giữa việc mua bán của hai mặt hàng, sữa và cà phê, có thể được kiểm tra bằng cách tổng kết lịch sử mua hàng của họ trong Bảng 6.8, một bảng tiếp 2 × 2, nơi một mục như mc đại diện cho số lượng giao dịch có chứa cả sữa và cà phê.
Bảng 6.9 cho thấy một tập hợp các bộ dữ liệu giao dịch với họ tương ứng với bảng khẩn tieáp tuïc và các giá trị liên quan cho mỗi sáu biện pháp đánh giá. Hãy đầu tiên kiểm tra bốn bộ dữ liệu đầu tiên, D1 qua D4. Từ bảng trên, chúng ta thấy rằng m và c có liên quan tích cực trong D1 và D2, liên quan đến tiêu cực trong D3, và trung lập ở D4. Đối với D1 và D2, m và c có liên quan tích cực vì mc (10.000) là lớn hơn đáng kể so với mc (1000) và mc (1000). Bằng trực giác, cho những người đã mua sữa (m = 10, 000 + 1000 = 11, 000), rất có khả năng rằng họ cũng đã mua cà phê (mc / m = 10/11 = 91%), và ngược lại.
Các kết quả bốn biện pháp mới được giới thiệu cho thấy m và c đều mạnh mẽ
tích cực liên quan ở cả hai bộ dữ liệu bằng cách tạo ra một giá trị đo là 0,91. Tuy nhiên, thang máy và χ 2 tạo ra các giá trị đo lường sự khác lạ cho D1 và D2 do tính nhạy cảm của họ để mc. Trong thực tế, trong nhiều tình huống thực tế, mc thường là rất lớn và không ổn định. Ví dụ, trong một cơ sở dữ liệu giỏ thị trường, tổng số lượng giao dịch có thể fluctu- ăn trên một cơ sở hàng ngày và áp đảo vượt quá số lượng giao dịch có chứa bất kỳ tập phổ biến cụ thể. Do đó, một biện pháp rất nhiều lý thú tốt không bị ảnh hưởng bởi các giao dịch không chứa các tập phổ biến của lãi suất; nếu không, nó sẽ tạo ra kết quả không ổn định, như minh họa trong D1 và D2.
đang được dịch, vui lòng đợi..
