4.1.1.1.1. Naive Bayes Classifier (NB). Các Naive Bayes
classifier là phân loại đơn giản nhất và thường được sử dụng nhất.
mô hình phân loại Naive Bayes tính xác suất hậu nghiệm
của một lớp, dựa vào sự phân bố của các từ trong
tài liệu. Các tác phẩm mô hình với các tính năng khai thác BOW
mà bỏ qua vị trí của từ trong văn bản. Nó sử dụng
Bayes Theorem để dự đoán xác suất mà một tính năng nhất định
tập hợp thuộc về một nhãn cụ thể.
PðlabeljfeaturesÞ ¼ PðlabelÞ? PðfeaturesjlabelÞ
PðfeaturesÞ ð3Þ
P (label) là xác suất trước của một nhãn hay khả năng mà
một tính năng ngẫu nhiên đặt nhãn. P (tính năng | label) là trước khi
xác suất mà một bộ tính năng nhất định được phân loại như là một nhãn.
P (tính năng) là xác suất trước đó một tập hợp đặc trưng nhất định
xảy ra. Với giả thiết ngây thơ trong đó nói rằng tất cả các
tính năng này là độc lập, các phương trình có thể được viết lại như
sau:
PðlabeljfeaturesÞ ¼ PðlabelÞ? Pðf1jlabelÞ? ... ::? PðfnjlabelÞ
PðfeaturesÞ
ð4Þ
Một cải thiện NB phân loại đã được đề xuất bởi Kang và Yoo
[36] để giải quyết các vấn đề của các xu hướng cho việc phân loại tích cực
chính xác xuất hiện lên đến khoảng 10% cao hơn
so với độ chính xác phân loại tiêu cực. Điều này tạo ra một vấn đề
của việc giảm độ chính xác trung bình khi độ chính xác
của hai lớp này được thể hiện như một giá trị trung bình. Họ
cho thấy rằng việc sử dụng thuật toán này với đánh giá nhà hàng
thu hẹp khoảng cách giữa các độ chính xác tích cực và
tiêu cực chính xác so với NB và SVM. Độ chính xác
được cải thiện trong thu hồi và độ chính xác so với cả NB
và SVM.
4.1.1.1.2. Mạng Bayesian (BN). Các giả thuyết chính của
phân loại NB là sự độc lập của các tính năng. Các khác
giả định cực đoan là giả định rằng tất cả các tính năng này là hoàn toàn
phụ thuộc. Điều này dẫn đến các mô hình Bayesian mạng mà là
một đồ thị acyclic đạo có các nút đại diện ngẫu nhiên
biến, và các cạnh đại diện phụ thuộc điều kiện. BN
được coi là một mô hình hoàn chỉnh cho các biến và các mối quan hệ của họ.
Vì vậy, một phân bố xác suất liên hoàn
(JPD) trên tất cả các biến, được chỉ định cho một mô hình. Trong bản
khai thác, mức độ phức tạp tính toán của BN là rất tốn kém;
đó là lý do tại sao, nó không được sử dụng thường xuyên [62].
BN đã được sử dụng bởi Herna'ndez và Rodrı'guez [40] để xem xét
một vấn đề thế giới, trong đó thái độ của tác giả được
đặc trưng bởi ba biến mục tiêu khác nhau (nhưng có liên quan).
Họ đã đề xuất việc sử dụng đa chiều mạng Bayesian
phân loại. Nó tham gia vào các biến mục tiêu khác nhau trong cùng một
nhiệm vụ phân loại nhằm khai thác các mối quan hệ tiềm năng
giữa chúng. Họ mở rộng các phân loại đa chiều
khuôn khổ để các miền bán giám sát để tận
dụng lợi thế của số lượng lớn các thông tin không có nhãn có sẵn
trong bối cảnh này. Họ cho thấy rằng bán giám sát của họ
tiếp cận đa chiều nhanh hơn so với thông thường nhất
phương pháp tiếp cận SA, và phân loại của họ là giải pháp tốt nhất
trong một khuôn khổ bán giám sát bởi vì nó phù hợp với thực tế
cấu trúc tên miền cơ bản.
4.1.1.1.3. Maximum Entropy Classifier (ME). Các Maxent
Classifier (được biết đến như một bộ phân loại theo cấp số nhân có điều kiện) Chuyển đổi
nhãn bộ tính năng để vectơ sử dụng mã hóa. Đây
vector mã hóa được sử dụng để tính toán trọng lượng cho mỗi tính năng
mà sau đó có thể được kết hợp để xác định khả năng nhất
nhãn cho một bộ tính năng. Phân loại này là tham số của một
tập hợp của X {} trọng lượng, được sử dụng để kết hợp các tính năng chung
được tạo ra từ một tính năng thiết lập bởi một X {} mã hóa. Trong
đó, mã hóa các bản đồ mỗi C {(featureset, nhãn)} cặp
với một vector. Xác suất của mỗi nhãn là sau đó được tính
bằng công thức sau:
PðfsjlabelÞ ¼ dotprodðweights; encodeðfs; labelÞÞ
sumðdotprodðweights; encodeðfs; lÞÞforlinlabelsÞ
ð5Þ
ME phân loại được sử dụng bởi Kaufmann [52] để phát hiện song song
giữa câu bất kỳ cặp ngôn ngữ với một lượng nhỏ
dữ liệu huấn luyện. Các công cụ khác đã được phát triển để tự động
trích xuất dữ liệu song song từ không song song sử dụng ngôn ngữ corpora
kỹ thuật cụ thể hoặc yêu cầu số lượng lớn các dữ liệu huấn luyện. Kết quả cho thấy rằng ME phân loại có thể sản xuất
các kết quả hữu ích cho hầu như bất kỳ cặp ngôn ngữ. Điều này có thể
cho phép tạo ra corpora song song cho nhiều ngôn ngữ mới.
4.1.1.2. Phân loại tuyến tính. Với X ¼ FX1 ......: xng là bình thường
tài liệu từ tần số, vector A ¼ FA1 ...... ang là
một vector của các hệ số tuyến tính với chiều giống như
các không gian đặc trưng, và b là một vô hướng ; đầu ra của tuyến tính
dự đoán được định nghĩa là ¼ p A: X þ b, đó là sản phẩm của
sự phân loại tuyến tính. Các dự đoán p là một siêu phẳng phân cách
giữa các lớp học khác nhau. Có rất nhiều loại phân lớp tuyến tính;
trong số đó là Support Vector Machines (SVM) [70,71]
mà là một hình thức phân loại mà cố gắng để xác định tốt
dải phân cách tuyến tính giữa các lớp học khác nhau. Hai trong số hầu hết các
phân lớp tuyến tính nổi tiếng sẽ được thảo luận ở sau
phần phụ.
4.1.1.2.1. Support Vector Machines Classifiers (SVM). Các
nguyên tắc chính của SVMs là để xác định dải phân cách tuyến tính trong
không gian tìm kiếm tốt nhất mà có thể tách riêng các lớp học khác nhau. Trong
hình. 3 có 2 lớp x, o và có 3 siêu phẳng A,
B và C. siêu phẳng A cung cấp sự tách biệt nhất giữa
các lớp, bởi vì khoảng cách bình thường của bất kỳ dữ liệu
điểm là lớn nhất, do đó, nó đại diện cho lợi nhuận tối đa
tách.
dữ liệu văn bản được lý tưởng cho SVM phân loại vì
về bản chất thưa thớt của văn bản, trong đó có vài tính năng này là không thích hợp,
nhưng họ có xu hướng được tương quan với nhau và
thường được tổ chức thành các loại tuyến tính tách biệt [72].
SVM có thể xây dựng một phi tuyến mặt quyết định trong bản gốc
không gian đặc trưng bằng cách ánh xạ các trường hợp dữ liệu phi tuyến tính với một
không gian sản phẩm bên trong nơi các lớp học có thể được tách tuyến tính
với một siêu phẳng [73].
SVMs được sử dụng trong nhiều ứng dụng, trong số các ứng dụng này
được phân loại theo đánh giá của họ chất lượng. Chen
Tseng và [26] đã sử dụng hai SVM dựa trên nhiều lớp
cách tiếp cận: One-versus-Tất cả SVM và Single-Machine nhiều lớp
SVM để phân loại các ý kiến. Họ đã đề xuất một phương pháp
để đánh giá chất lượng của thông tin trong phần đánh giá sản phẩm
xem xét nó như là một vấn đề phân loại. Họ cũng đã thông qua
một chất lượng thông tin (IQ) khuôn khổ để tìm informationoriented
tính năng thiết lập. Họ đã làm việc trên các máy ảnh kỹ thuật số và
các ý kiến MP3. Kết quả cho thấy rằng phương pháp của họ có thể chính xác
phân loại đánh giá về chất lượng của họ. Nó đáng kể
nhanh hơn so với nhà nước-of-the-nghệ thuật phương pháp.
SVMs đã được sử dụng bởi Li và Li [57] là một tình cảm cực
phân loại. Không giống như các vấn đề phân loại nhị phân, họ lập luận
rằng ý kiến chủ quan và expresser uy tín cũng nên
được xem xét. Họ đề xuất một khuôn khổ mà
cung cấp một tổng kết số compact ý kiến về
vi-blog nền tảng. Họ đã xác định và trích xuất các chủ đề
được đề cập trong các ý kiến liên quan đến truy vấn của người dùng,
và sau đó phân loại các ý kiến sử dụng SVM. Họ đã làm việc trên
twitter bài cho thí nghiệm của mình. Họ phát hiện ra rằng việc xem xét
của người sử dụng sự tín nhiệm và tính chủ quan điểm là điều cần thiết
cho việc tập hợp micro-blog ý kiến. Họ đã chứng minh rằng
cơ chế hiệu quả của họ có thể khám phá thông tin thị trường
(MI) để hỗ trợ ra quyết định bằng cách thiết lập một giám sát
hệ thống để theo dõi ý kiến từ bên ngoài về các khía cạnh khác nhau
của một doanh nghiệp trong thời gian thực.
4.1.1.2.2. Neural Network (NN). Neural Network bao gồm
nhiều tế bào thần kinh, nơi các tế bào thần kinh là đơn vị cơ bản của nó. Các yếu tố đầu vào
để các tế bào thần kinh được biểu hiện bằng các overlineXi vector đó là
tần số từ trong tài liệu thứ i. Có một tập hợp các
trọng số A được kết hợp với mỗi tế bào thần kinh được sử dụng để
tính toán một chức năng của các đầu vào của nó f (). Các hàm tuyến tính của
các mạng thần kinh là: pi ¼ A Xi. Trong một phân loại nhị phân
vấn đề, nó được giả định rằng các nhãn lớp của Xi được ký hiệu
bởi yi và các dấu hiệu của hàm pi dự đoán sản lượng các lớp
nhãn.
Multilayer mạng thần kinh được sử dụng cho ranh giới phi tuyến tính.
Những nhiều lớp được sử dụng để gây nhiều piecewise
ranh giới tuyến tính, được sử dụng để ước tính
khu vực kèm theo thuộc về một lớp học đặc biệt. Các kết quả đầu ra
của các tế bào thần kinh trong các lớp trước đó đưa vào tế bào thần kinh trong
các lớp sau. Quá trình đào tạo phức tạp hơn bởi vì
các lỗi cần phải được back-lan truyền qua các lớp khác nhau.
Có những hiện thực của NNS cho dữ liệu văn bản được
tìm thấy trong [74,75].
Có một thực nghiệm so sánh giữa SVM và Artifi-
mạng thần kinh tài ANNs trình bày bởi Moraes và Valiati
[53] về phân tích tâm lý tài liệu cấp. Họ đã
so sánh này vì SVM đã được rộng rãi và thành công
được sử dụng trong khi SA ANNs đã thu hút ít sự chú ý
như một cách tiếp cận để học hỏi về tình cảm. Họ đã thảo luận về
các yêu cầu, kết quả mô hình và bối cảnh mà trong đó cả hai
cách tiếp cận tốt hơn mức độ đạt được độ chính xác phân loại.
Họ cũng đã áp dụng một bối cảnh đánh giá chuẩn với
phương pháp giám sát phổ biến để lựa chọn tính năng và trọng lượng
trong một mô hình BOW truyền thống. Thí nghiệm của họ chỉ ra
rằng ANN cho kết quả vượt trội so với SVM trừ một số
bối cảnh dữ liệu không cân bằng. Họ đã thử nghiệm ba benchmark
bộ dữ liệu về phim, GPS, Camera và Sách Nhận xét từ
amazon.com. Họ đã chứng minh rằng các thí nghiệm trên phim
đánh giá ANN vượt trội so với SVM bởi một ý nghĩa thống kê
khác biệt. Họ đã xác nhận một số hạn chế tiềm năng của cả hai
mô hình, mà rất ít khi được thảo luận trong văn học SA,
như chi phí tính toán của SVM lúc chạy và
ANN tại thời gian đào tạo. Họ đã chứng minh rằng việc sử dụng thông tin
thu được (một lựa chọn tính năng Phương pháp tính toán giá rẻ) có thể
làm giảm các nỗ lực tính toán của cả hai ANN và SVM mà không
ảnh hưởng đáng kể độ chính xác phân loại kết quả.
SVM và NN có thể được sử dụng cũng để phân loại các cá nhân
các mối quan hệ trong các văn bản tiểu sử được trình bày .
đang được dịch, vui lòng đợi..
