Ví dụ 8.4 Dự đoán một nhãn lớp bằng Na Ive phân loại Bayes. Chúng tôi muốn để dự đoán
nhãn lớp của một bộ sử dụng na Ive phân loại Bayesian, cho dữ liệu huấn luyện cùng
như trong Ví dụ 8.3 cho cảm ứng cây quyết định. Dữ liệu huấn luyện được hiển thị trước đó
trong Bảng 8.1. Các bộ dữ liệu được mô tả bởi các thuộc tính tuổi tác, thu nhập, học sinh và
xếp hạng tín dụng. Các thuộc tính nhãn lớp, mua máy tính, có hai giá trị khác nhau (cụ thể là,
{yes, no}). Hãy C1 tương ứng với các lớp mua máy tính = yes và C2 tương ứng để
mua máy tính = không. Các tuple chúng tôi muốn phân loại là
X = (tuổi = thanh niên, thu nhập = trung bình, sinh viên = yes, xếp hạng tín dụng = công bằng)
Chúng tôi cần để tối đa hóa P (X | Ci) P (Ci), với i = 1, 2. P (Ci), xác suất trước của mỗi
lớp, có thể được tính toán dựa trên bộ dữ liệu huấn luyện:
P (mua máy tính = yes) = 9/14 = 0,643
P (mua máy tính = không) = 5/14 = 0,357
Để tính P ( X | Ci), với i = 1, 2, chúng tôi tính toán các xác suất có điều kiện sau đây:
P (tuổi = trẻ | mua máy tính = yes) = 2/9 = 0,222
P (tuổi = trẻ | mua máy tính = không) = 3 / 5 = 0,600
P (thu nhập = medium | mua máy tính = yes) = 4/9 = 0,444
P (thu nhập = medium | mua máy tính = không) = 2/5 = 0,400
P (sinh viên = yes | mua máy tính = yes) = 6 / 9 = 0,667
HAN 15 ch08-327-392-9780123814791 2011/06/01 03:21 trang 354 # 28
354 Chương 8 Phân loại: Các khái niệm cơ bản
P (sinh viên = yes | mua máy tính = không) = 1/5 = 0,200
P (xếp hạng tín dụng = công bằng | mua máy tính = yes) = 6/9 = 0,667
P (xếp hạng tín dụng = công bằng | mua máy tính = không) = 2/5 = 0,400
Sử dụng các xác suất, ta có
P (X | mua máy tính = yes ) = P (tuổi = tuổi trẻ | mua máy tính = có)
× P (thu nhập = medium | mua máy tính = có)
× P (sinh viên = yes | mua máy tính = có)
× P (xếp hạng tín dụng = công bằng | mua máy tính = yes)
= 0,222 × 0,444 × 0,667 × 0,667 = 0,044.
Tương tự như vậy,
P. (X | mua máy tính = không) = 0,600 × 0,400 × 0,200 × 0,400 = 0,019
Để tìm lớp, Ci, nhằm tối đa hóa P (X | Ci) P (Ci), ta tính
P (X | mua máy tính = có) P (mua máy tính = yes) = 0,044 × 0,643 = 0,028
P (X | mua máy tính = không) P (mua máy tính = không) = 0,019 × 0,357 = 0,007
Do đó, Na Ive phân loại Bayes dự đoán mua máy tính = yes cho tuple X.
"nếu tôi gặp phải các giá trị xác suất bằng không?" Nhớ lại rằng trong phương. (8.12), chúng tôi ước tính P (X | Ci) là sản phẩm của các xác suất P (x1 | Ci), P (x2 | Ci), ..., P (xn | Ci), dựa
trên giả định của class- độc lập có điều kiện. Những xác suất có thể được ước lượng từ các bộ dữ liệu đào tạo (bước 4). Chúng tôi cần phải tính toán P (X | Ci) cho mỗi lớp học (i =
1,2, ..., m) để tìm thấy những lớp Ci mà P (X | Ci) P (Ci) là tối đa (bước 5) . Hãy
xem xét tính toán này. Đối với mỗi cặp thuộc tính-giá trị (tức là, Ak = xk, k = 1,2, ..., n)
trong tuple X, chúng ta cần phải đếm số lượng các bộ dữ liệu có mà cặp thuộc tính-giá trị, mỗi
lớp (tức là, mỗi Ci, i = 1, ..., m). Trong ví dụ 8.4, chúng ta có hai lớp (m = 2), cụ thể là
mua máy tính = yes và mua máy tính = không. Do đó, đối với các cặp thuộc tính-giá trị
sinh viên = yes của X, nói rằng, chúng ta cần hai tội-số lượng khách hàng là sinh viên
và cho đó mua máy tính = yes (đóng góp để P (X | mua máy tính = có))
và số lượng khách hàng là sinh viên và cho đó mua máy tính = không
. (đóng góp để P (X | mua máy tính = không))
Nhưng nếu, nói rằng, không có bộ dữ liệu đào tạo đại diện cho sinh viên các lớp
mua máy tính = không có, kết quả là P (sinh viên = yes | mua máy tính = không) = 0? Trong khác
từ, những gì sẽ xảy ra nếu chúng ta nên kết thúc với một giá trị xác suất bằng không đối với một số
P (xk | Ci)? Đem giá trị này bằng không vào Eq. (8.12) sẽ trả về một khả năng không cho
P (X | Ci), mặc dù, không có xác suất bằng không, chúng ta có thể đã kết thúc với một cao
xác suất, gợi ý rằng X thuộc lớp Ci! Một xác suất bằng không hủy bỏ những ảnh hưởng
của các bản khác (hậu) xác suất (trên Ci) có liên quan đến sản phẩm.
Có một thủ thuật đơn giản để tránh vấn đề này. Chúng ta có thể giả định rằng cơ sở dữ liệu đào tạo của chúng tôi, D, là rất lớn mà thêm một đến mỗi số mà chúng ta cần sẽ chỉ làm cho một
sự khác biệt đáng kể trong giá trị xác suất ước tính, chưa thuận tiện sẽ tránh được
HAN 15 ch08-327-392-9780123814791 2011 / 01/06 03:21 trang 355 # 29
8.4 Rule-Based Phân loại 355
trường hợp giá trị xác suất bằng không. Kỹ thuật này để ước lượng xác suất được gọi là
điều chỉnh Laplacian hay Laplace ước lượng, được đặt tên sau khi Pierre Laplace, một người Pháp
nhà toán học người sống từ năm 1749 đến năm 1827. Nếu chúng ta có, nói, đếm q mà mỗi chúng ta
thêm một, sau đó chúng ta phải nhớ để thêm q cho mẫu số tương ứng được sử dụng trong
việc tính toán xác suất. Chúng tôi minh họa kỹ thuật này trong ví dụ 8.5
đang được dịch, vui lòng đợi..