ψi≡p yi = 1jxi ð Þ =
exp W0 + wTxi
? ?
1 + exp W0 + wTxi
? ? ð1Þ
nơi w0∈R và w∈Rd là đánh chặn LR và hệ số
tương ứng. Đối với một bộ N điểm độc lập nhãn dữ liệu, {xi,
yi} i = 1
N, loga của nhãn lớp có thể được viết như
Eq. (2):
l W0; w ð Þ = Σ
n
i = 1
½ 1-yi ð Þlog 1-ψi ð Þ + yi logψi? ð2Þ
Để tối đa hóa loga trong phương. (2), tối ưu hóa tiêu chuẩn
phương pháp có thể được sử dụng, vì gradient (và Hessian) của phương trình. (2)
đối với {W0, w} có thể dễ dàng tính toán. Khi LR
thông số {W0, w} đã được học, xác suất một
không có nhãn kiểm tra dữ liệu điểm xi thuộc về mỗi lớp có thể thu được
bằng phương trình. (1).
3.6. Mạng lưới thần kinh xác suất (PNN)
PNN là một NN feed-forward liên quan đến một thuật toán huấn luyện một đường chuyền
sử dụng để phân loại và lập bản đồ dữ liệu. PNN đã được giới thiệu bởi
Specht [43] vào năm 1990. Nó là một mạng lưới mô hình phân loại dựa trên
Bayes phân loại cổ điển, đó là thống kê một phân loại tối ưu mà
tìm cách để giảm thiểu nguy cơ phân loại sai. Bất kỳ mô hình phân loại
nơi từng quan sát dữ liệu vector x = [x1, x2, x3. . . xN] T tại một trong những
ci lớp được xác định trước, i = 1, 2, ..., m trong đó m là số thể
lớp. Tính hiệu quả của bất kỳ phân loại được giới hạn bởi số lượng các
yếu tố dữ liệu vector x có thể có và số lượng có thể
lớp m. Bộ phân loại mô hình Bayes cổ điển [40] thực hiện các
quy tắc xác suất có điều kiện Bayes rằng xác suất P (ci | x) của x
là trong lớp ci được tính bằng:
P ci ð jxÞ =
P xjci ð THP ci ð Þ
Σ m
j = 1
P xjcj
? ?
P cj
? ? ð3Þ
đó P (x | ci) là lạnh hàm mật độ xác suất x
cho bộ ci, P (cj) là xác suất rút dữ liệu từ lớp cj. Vector
x được cho là thuộc về một ci lớp học đặc biệt, nếu P (ci | x) NP (cj | x), ∀ j = 1, 2, ...,
m và j ≠ i. Đầu vào này x được đưa vào từng mô hình trong mô hình
lớp. Các lớp tổng kết tính xác suất P (ci | x) là
đầu vào cho x được bao gồm trong mỗi ci lớp đó được đại diện bởi
các mẫu trong các lớp mô hình. Các lớp ra chọn lớp cho
mà xác suất cao nhất thu được trong lớp tổng kết. Các
đầu vào được sau đó thực hiện là thuộc nhóm này. Tính hiệu quả của
mạng lưới trong việc phân loại các vector đầu vào phụ thuộc vào giá trị của các
thông số làm mịn.
4. Tính năng lựa chọn
lựa chọn tính năng là rất quan trọng để khai thác dữ liệu và dựa trên kiến thức
xác thực. Vấn đề lựa chọn tính năng này đã được nghiên cứu
trong lĩnh vực mà bộ dữ liệu với một số lượng lớn các tính năng có sẵn,
bao gồm cả máy tính học tập, nhận dạng mẫu, và thống kê.
Piramuthu [36] quan sát thấy rằng khoảng 80% các nguồn lực trong đa số
các ứng dụng khai thác dữ liệu được chi tiêu cho sạch và tiền xử lý
dữ liệu, và phát triển một phương pháp lựa chọn tính năng mới dựa trên
Hausdorff khoảng cách cho việc phân tích dữ liệu truy cập web. Lựa chọn tính năng này là
hết sức quan trọng đối với bất kỳ thuật toán học mà khi
thực hiện kém (ví dụ, một bộ nghèo tính năng được chọn) có thể dẫn đến
các vấn đề liên quan đến thông tin không đầy đủ, ồn ào hoặc không liên quan
các tính năng, không phải là tập hợp / kết hợp tốt nhất các tính năng, trong số những người khác [45]. Mladenic
và Grobelnik [31] xem xét phương pháp lựa chọn tính năng khác nhau trong
bối cảnh khai thác web. Chen và Liginlal [11] đã phát triển tối đa
entropy dựa kỹ thuật lựa chọn tính năng cho dựa trên kiến thức
xác thực.
Trong nghiên cứu này, chúng tôi sử dụng một giai đoạn lựa chọn tính năng bằng cách sử dụng các
kỹ thuật thống kê t đơn giản. t-thống kê là một trong những tính năng hiệu quả
đang được dịch, vui lòng đợi..
