3.1. máy họcMáy học phương pháp áp dụng chophân tích tình cảm chủ yếu thuộc về giám sátphân loại trong kỹ thuật phân loại nói chung và văn bảnđặc biệt. Do đó, nó được gọi là "" giám sát học tập". Trong mộtMáy phân loại học dựa, hai bộtài liệu được yêu cầu: đào tạo và thử nghiệm một thiết lập. Đào tạothiết lập được sử dụng bởi một loại tự động để tìm hiểu cácCác đặc điểm khác biệt của tài liệu, và một bộ kiểm trađược sử dụng để xác nhận hiệu suất tự độngloại. Một số máy học tập kỹ thuật cóđược sử dụng để phân loại những nhận xét. Máy họckỹ thuật như ngây thơ Bayes (NB), tối đa entropy(Tôi), và hỗ trợ vector máy (SVM) đã đạt đượcthành công lớn trong phân loại văn bản. Hầu hết náoMáy học phương pháp trong ngôn ngữ tự nhiênxử lý khu vựcK-gần nhất khu phố, ID3, C5, loại centroid,vỗ loại, và mô hình N-gam.Ngây thơ Bayes là một đơn giản nhưng hiệu quả phân loạithuật toán. Thuật toán ngây thơ Bayes được dùng rộng rãithuật toán để phân loại tài liệu (Melville et al.,năm 2009; Rui hạ, năm 2011; Ziqiong, năm 2011; Songho tân, 2008 và Qiang Ye, 2009). Ý tưởng cơ bản là để ước lượng cácxác suất của thể loại cho một tài liệu thử nghiệm bằng cách sử dụngcác xác suất phần của từ và thư mục. Ngây thơmột phần của một mô hình như vậy là giả định của từđộc lập. Sự đơn giản của giả định này làm chotính toán của ngây thơ Bayes loại hơnhiệu quả.Hỗ trợ vector máy (SVM), một discriminativeloại được coi là phương pháp tốt nhất phân loại văn bản(Rui hạ, năm 2011; Ziqiong, năm 2011; Songho tân, 2008 vàRudy Prabowo, 2009). . Máy vectơ hỗ trợ là mộtthống kê phân loại phương pháp được đề xuất bởi Vapnik.Dựa trên nguyên tắc giảm thiểu nguy cơ cấu trúc từlý thuyết toán học, SVM tìm kiếm một quyết địnhbề mặt để tách các điểm dữ liệu đào tạo thành haiCác lớp học và làm cho các quyết định dựa trên các vectơ hỗ trợmà được lựa chọn là chỉ có hiệu quả các yếu tố trong cácđào tạo thiết lập. Nhiều biến thể của SVM đãphát triển trong lớp học đa SVM được sử dụng choTình cảm các phân loại (Kaiquan Xu, năm 2011).Ý tưởng đằng sau thuật toán phân loại centroidcực kỳ đơn giản và đơn giản (Songho tan,Năm 2008). Ban đầu véc tơ nguyên mẫu hoặc centroid vector chomỗi lớp đào tạo tính toán, sau đó là sự giống nhaugiữa một tài liệu thử nghiệm để tất cả centroid được tính,cuối cùng, dựa trên những điểm tương đồng, tài liệu được chỉ địnhđể các lớp tương ứng với centroid đặt tương tự.K, gần nhất hàng xóm (KNN) là một ví dụ điển hìnhDựa trên loại mà không xây dựng một rõ ràng, kỹđại diện của các loại, nhưng dựa trên các loạinhãn gắn liền với các tài liệu đào tạo tương tự như cáckiểm tra tài liệu. Đưa ra một thử nghiệm tài liệu d, Hệ thống tìm thấyk gần nhất hàng xóm trong số các tài liệu đào tạo. Cáctương tự được điểm của mỗi gần nhất hàng xóm tài liệu để cáckiểm tra tài liệu được sử dụng như trọng lượng của các lớp học của cáchàng xóm các tài liệu (Songho tan, 2008).Winnow là một nổi tiếng trực tuyến nhầm lẫn-lái xephương pháp. Nó hoạt động bằng cách Cập Nhật của nó trọng lượng trong một chuỗithử nghiệm. Trên mỗi phiên tòa, nó lần đầu tiên làm cho một dự báo cho mộttài liệu và sau đó nhận được thông tin phản hồi; Nếu một lỗi lànó thực hiện, Cập Nhật vector trọng lượng bằng cách sử dụng các tài liệu.Trong giai đoạn đào tạo, với một bộ sưu tập của đào tạodữ liệu, quá trình này được lặp đi lặp lại nhiều lần bởi iterating trêndữ liệu (Songho tan, 2008). Bên cạnh các máy phân loạiMáy phân loại khác như ID3 và C5 cũng đang điều tra(Rudy Prabowo, 2009).Bên cạnh việc sử dụng các ở trên cho biết máy họcphương pháp riêng để phân loại tình cảm, khác nhauso sánh nghiên cứu đã được thực hiện để tìm tốt nhấtsự lựa chọn của máy phương pháp học tập cho tình cảmphân loại. Songbo Tan (2008) thể hiện một thực nghiệmnghiên cứu về tình cảm loại trên tài liệu Trung Quốc.Ông nghiên cứu bốn tính năng phương pháp lựa chọn (MI, IG,CHI và DF) và phương pháp học tập năm (centroidloại, K, gần nhất với hàng xóm, vỗ loại, ngây thơBayes và SVM) trên một corpus Trung Quốc tình cảm. Từkết quả ông kết luận rằng, IG thực hiện tốt nhất chotình cảm điều khoản lựa chọn và SVM thể hiện tốt nhấthiệu suất cho phân loại tình cảm. Khi áp dụngSVM, ngây thơ Bayes và mô hình n-gam đến đíchđánh giá, Ye et al. (2009) tìm thấy rằng SVM nhanh hơn soCác khác máy phân loại hai.Rudy Prabowo (2009) Mô tả một phần mở rộng bởikết hợp các quy tắc dựa trên phân loại, giám sát học tậpvà máy học vào một phương pháp kết hợp mới. Chomỗi bộ mẫu, họ tiến hành 10-fold xác nhận qua.Cho mỗi màn hình đầu tiên, các mẫu liên kết được chia thànhđào tạo và thử nghiệm một thiết lập. Cho mỗi mẫu thử nghiệm, một laiphân loại được thực hiện, ví dụ, nếu một loại khôngphân loại một tài liệu, loại đi các tài liệuvào loại tiếp theo, cho đến khi các tài liệu được phân loại hoặckhông có loại khác tồn tại. Cho một tập hợp đào tạo, các quy tắcDựa trên loại (RBC) sử dụng một máy phát điện quy tắc đểtạo ra một tập các quy tắc và một tập hợp các dòng đểđại diện cho mẫu thử nghiệm và sử dụng các quy tắc đặt từ dẫn xuấttừ bộ đào tạo để phân loại các mẫu thử nghiệm. Nếu thử nghiệmmẫu là không phân loại, RBC thông qua các liên kếtdòng lên các số liệu thống kê dựa trên loại (SBC), nếuSBC có thể không phân loại các mẫu thử nghiệm; SBCthông qua dòng kết hợp lên tướng quânInquirer dựa trên loại (GIBC), sử dụng các 3672Các quy tắc đơn giản để xác định consequents của cácdòng. Máy vectơ hỗ trợ (SVM) làcho một tập hợp đào tạo để phân loại các mẫu thử nghiệm nếu baMáy phân loại thất bại trong việc phân loại như vậy.
đang được dịch, vui lòng đợi..