KHAI THÁC 5. Ý KIẾN và tình cảm
PHÂN TÍCH
Vấn đề phân tích tình cảm được đáp ứng bằng cách sử dụng một số các
kỹ thuật sử dụng kỹ thuật xử lý ngôn ngữ tự nhiên,
phương pháp gần gũi vv Sau đây là một nghiên cứu ngắn gọn về một vài
trong số họ.
Một cách tiếp cận đáng chú ý trong [3] sử dụng cấp độ câu tâm lý
phân tích. Các tính năng khai thác cấp độ từ được thực hiện bằng cách sử dụng
Naive Bayes Classifier. Các định hướng ngữ nghĩa của
câu cá được lấy từ các ngữ cảnh
thông tin. Cách tiếp cận với máy tính học tập trung bình
tuyên bố một tỷ lệ chính xác là 83%. Để phân loại và
phân tích của tình cảm từ những nhận xét, máy
học tập và các thông tin theo ngữ cảnh từ vựng được sử dụng. Các
giấy tập trung vào mức độ câu để kiểm tra xem các
câu là khách quan hay chủ quan và để phân loại các
phân cực của các câu với quan điểm tích cực hay tiêu cực.
Cách tiếp cận Naive Bayes được sử dụng để ghi chú thích mỗi câu
là tích cực và tiêu cực trên cơ sở các cấp độ từ hữu ích
tính năng. SVM phân loại được đào tạo về các câu chú thích
cho việc phân loại tích cực và tiêu cực. Theo ngữ cảnh
thông tin được sử dụng để tính toán sự phân cực về bản án và
đánh dấu nó như là tiêu cực hay tích cực. Giấy [4] trình bày
thí nghiệm để phân tích tình cảm để tự động
phân biệt cực trước và theo ngữ cảnh. Bắt đầu với một
ổn định lớn các manh mối được đánh dấu với cực trước, phương pháp
xác định sự phân cực theo ngữ cảnh của các cụm từ có chứa
các trường hợp của những manh mối trong corpus.
Một quá trình hai bước được sử dụng mà sử dụng máy học
và một loạt các tính năng. Thứ nhất phương pháp phân loại từng
cụm từ có chứa một đầu mối là trung tính hoặc cực. Thứ hai nó
có tất cả các cụm từ được đánh dấu ở bước trước đó là cực và
disambiguates cực theo ngữ cảnh của họ (tích cực, tiêu cực,
cả hai, hoặc trung tính). Phương pháp này mô tả một hệ thống
tự động nhận dạng phân cực theo ngữ cảnh cho một lượng lớn
tập hợp con của các biểu thức tình cảm, đạt được kết quả đáng tin cậy.
Một công việc quan trọng là việc thực hiện cả
sự hiểu biết ngôn ngữ tự nhiên và thế hệ trong
phân tích Sentiment [5]. Một vài thuật toán để tìm kiếm và
dự đoán hướng của ý kiến này được quy định trong
công tác nghiên cứu. Trong hệ thống của họ có một cơ sở dữ liệu tổng quan mà
lưu trữ các văn bản ngoan. Phương pháp này sau đó phát hiện thường xuyên
các tính năng mà nhiều người đã bày tỏ ý kiến của họ về.
Sau đó, từ quan điểm được chiết xuất bằng cách sử dụng
các tính năng thường xuyên kết quả và định hướng ngữ nghĩa của các
từ quan điểm được xác định với sự giúp đỡ của WordNet. Các
hệ thống sau đó tìm thấy những tính năng không thường xuyên.
Định hướng của mỗi câu quan điểm được xác định và một
bản tóm tắt văn bản cuối cùng được tạo ra trong công việc này. Các phần của bài phát biểu gắn thẻ từ xử lý ngôn ngữ tự nhiên được sử dụng để
tìm các tính năng ý kiến. Đầu ra của giấy trên là một văn bản
tóm tắt ý kiến. Như vậy tổng kết của văn bản cũng được
thực hiện như là một hệ thống phụ. Nhưng công việc tổng kết này là thật sự
phụ thuộc vào các tính năng và do đó là xa
việc tổng hợp tự động trong các lĩnh vực của NLP. Các
giấy đề nghị một phương pháp bằng cách sử dụng các từ đồng nghĩa tính từ
trái nghĩa và thiết lập thiết lập trong WordNet để dự đoán ngữ nghĩa
định hướng của các tính từ. Tờ báo này cũng mô tả các nhu cầu
của Nghị quyết đại trong khai thác ý kiến, dù cho nó
không được giải quyết.
Một phương pháp phân tích tình cảm mà không sử dụng
quy tắc ngôn ngữ tự nhiên thông thường được quy định trong [6]. Các
công trình sử dụng một cách tiếp cận máy học (Bayesian Naive) cho
phân loại. Các luật kết hợp lớp học được sử dụng để trích xuất
các liên kết giữa các tính năng từ xuất hiện trong
ý kiến của người tiêu dùng xem xét và tính năng sản phẩm cho một
sản phẩm tiêu dùng đặc biệt.
Một tập hợp các ý kiến trước câu phân loại được sử dụng như
dữ liệu huấn luyện để phát triển các luật kết hợp lớp. Mỗi
câu được gắn nhãn với một hoặc nhiều tính năng sản phẩm, fj, hoặc
không có tính năng sản phẩm, không có. Các e-biện pháp được sử dụng làm thước đo
để đánh giá, và tuyên bố hiệu suất lên đến 70%. Trong
bài báo, những câu xét được chia thành các lớp khác nhau
theo các luật kết hợp. Việc phân loại các
văn bản ngoan cố được thực hiện bằng cách sử dụng cả hai luật kết hợp lớp
và phân loại Bayes ngây thơ. Sau đó các thí nghiệm
được thực hiện đã chứng minh rằng các luật kết hợp lớp thực hiện tốt hơn so với
các phân loại Bayes ngây thơ truyền thống. Trong [7], các tác giả
trình bày một cách tiếp cận để khai thác ý kiến mà dựa trên
các kỹ thuật xử lý ngôn ngữ tự nhiên. Công việc này được
thực hiện bằng các từ vựng tình cảm và một mô hình
cơ sở dữ liệu. Hai thuật toán lựa chọn tính năng thảo luận trong
tác phẩm này được dựa trên mô hình hỗn hợp và khả năng
tỷ lệ. Họ đề xuất một mô hình tâm lý dựa trên phân tích cho
các công việc phân loại tình cảm.
Trong [8], một nghiên cứu chuyên sâu của mối quan hệ phụ thuộc giữa các
từ của một câu được thảo luận. Trong công việc của họ,
phụ thuộc được phân loại là tầm ngắn và tầm xa
phụ thuộc. Họ sử dụng một phương pháp tiếp cận phân nhóm sau khi
phân tích cú pháp được thực hiện. Trong bài báo của [9] một mô hình kết hợp của
phân tích tâm lý được thực hiện. Xem xét tất cả các cấp độ
phân tích như mức độ cụm từ, câu và mức độ tài liệu
có lợi thế riêng của họ. Tuy nhiên, một mô hình kết hợp
bao gồm cả ba có thể đạt được hiệu suất tốt hơn.
Một mô hình kết hợp dựa trên cụm từ và mức án
phân tích và mô tả về việc thực hiện các
mức độ khác nhau của phân tích được trình bày. Đối với các phraselevel
phân tích tâm lý, một mẫu được sử dụng. Mới được
định nghĩa là mẫu template Left-Trung-Right. Các
điều kiện Random Fields được sử dụng để trích xuất các tình cảm
từ. Các mô hình Maximum Entropy được sử dụng trong
phân tích tâm lý câu cấp. Các mô hình kết hợp
với sự kết hợp các tính năng cụ thể thực hiện một chút
tốt hơn so với các mô hình cấp truyền thống duy nhất. Một
bài báo trong đó nghiên cứu việc khai thác các ý kiến trên mạng ở
miền phim là [10]. Trong bài báo của họ đưa ra một
đề nghị của một mô hình được gọi là S-PLSA (Sentiment Probabilistic
Latent Semantic Analysis). Đây là một mô hình sinh sản cho
phân tích tình cảm mà không một hiểu sâu sắc hơn về những
tình cảm trong blog.
Các mô hình S-PLSA được sử dụng để tổng kết tình cảm
thông qua đánh giá. Từ mô hình S-PLSA, họ
phát triển Arsa (model Sentiment-Aware tự hồi quy),
một mô hình để dự đoán hiệu suất bán hàng dựa trên các
thông tin tình cảm và bán hàng qua các sản phẩm của
hiệu suất. Họ đã xem xét vai trò của đánh giá
chất lượng trong dự đoán hiệu suất bán hàng. Mô hình dự báo
đánh giá chất lượng của một đánh giá. Các yếu tố chất lượng sau đó được
kết hợp vào một mô hình khác được gọi ARSQA
(tự hồi Sentiment và chất lượng mô hình Aware). Hai
mô hình, Arsa và ARSQA mô hình được thiết kế cho
dự đoán doanh số bán sản phẩm. Những mô hình này phản ánh ảnh hưởng của
tình cảm, và hoạt động bán hàng trong quá khứ về doanh số bán hàng trong tương lai
thực hiện. Vấn đề phân tích tâm lý là cố gắng để được
giải quyết bằng cách sử dụng một phương pháp tiếp cận nhóm trong [11]. Bài viết này cũng
thảo luận về các ứng dụng của phương pháp trọng số TF-IDF, bỏ phiếu
cơ chế nhập khẩu và điểm hạn và tuyên bố hầu như
kết quả ổn định. Một phân tích Sentiment cấp tính năng được
thảo luận trong [12]. Dưới đây công việc đã được tập trung vào
đánh giá sản phẩm của Trung Quốc.
Các quá trình lựa chọn tính năng dựa trên một apriori
thuật toán. Các quy tắc khai thác mỏ liên Apriori được sử dụng để
trích xuất các tính năng sản phẩm ứng cử viên. Sau đó, các đơn đặt hàng của
một số từ tính năng sản phẩm ứng cử viên được điều chỉnh. Cuối cùng,
thông tin lẫn nhau (PMI) phương pháp điểm-khôn ngoan được sử dụng để
lọc từ tính năng để có được những sản phẩm có ý nghĩa
từ tính năng. Công việc rất đơn giản và không tối đa
sự hài lòng. Nhưng các tính năng khai thác được thực hiện trong công việc này là
mentionable. Một cách tiếp cận rất phân biệt với quan điểm
khai thác khoáng sản được đưa ra trong [13]. Mô hình này dựa trên các danh từ
và trạng từ, tính từ, danh từ (AAN) kết hợp trong
phân tích tâm lý.
Các AAN dựa kỹ thuật phân tích tâm lý triển khai
phân tích ngôn ngữ của phó từ chỉ mức độ, phạm vi riêng biệt
tính từ và danh từ trừu tượng. Một tập hợp các tiên đề chung (dựa
trên phân loại phó từ chỉ mức độ thành năm loại,
phân loại tính từ thành mười tên miền cụ thể,
phân loại danh từ trừu tượng trong hai loại) cho ý kiến
phân tích cũng được xác định. Cách thức mà các tính từ và
trạng từ được tìm thấy và ghi bàn là thú vị. Nguyên phân và
các thuật toán AAN nhị phân cũng được đề cập trong tác phẩm.
Một cách tiếp cận mới là một sự gần gũi tình cảm dựa trên
phân tích [14].
Ý tưởng này được dựa trên những phát hiện về các cách thức mà
con người bày tỏ suy nghĩ của họ. Khi một người bắt đầu viết
tích cực về một chủ đề hoặc chủ đề mà họ cứ tiếp tục
xu hướng tích cực trong một khoảng thời gian. Sau lời inflexion
như "tuy nhiên" được sử dụng và sau đó bắt đầu viết trong âm
nghĩa về chủ đề. Trong một đoạn mọi người thường không
liên tục viết một tích cực và tiêu cực một từ
lại với nhau. Điển hình là các phân đoạn của một văn bản viết (egparagraphs hoặc câu) chụp một khái niệm hay xu hướng của
suy nghĩ trong một thời gian ngắn. Xu hướng này có thể
dao động khi di chuyển dọc theo tài liệu bằng văn bản. Các
khoảng cách trung bình giữa tích cực định hướng (hoặc negativeoriented)
từ dự kiến sẽ được nhỏ cho các phân đoạn mang
dương (âm) tình cảm. Do đó, trung bình
khoảng cách giữa (âm định hướng) tích cực theo định hướng
từ này là tương đối lớn cho phân khúc mang âm
(tích cực) tình cảm. Đây là nguyên tắc mà trên đó các
mô hình được phát triển. Ba gần trụ sở khác nhau
các tính năng, phân phối gần, thông tin lẫn nhau
giữa các loại khoảng cách, và mô hình gần gũi được sử dụng
để phân tích tình cảm.
Support Vector Machine Classifier được thực hiện sử dụng trong [15].
Cách tiếp cận này nhấn mạnh việc sử dụng của một loạt các đa dạng
các nguồn thông tin , và SVMs cung cấp các công cụ lý tưởng để
mang lại những nguồn với nhau. Các phương pháp được sử dụng để gán
giá trị cho các từ và cụm từ được lựa chọn, và mang lại cho họ
với nhau để tạo ra một mô hình cho việc phân loại văn bản. Trong
bài báo này, Định hướng tình cảm của một cụm từ được
xác định dựa trên điểm khôn ngoan lẫn nhau của cụm từ
thông tin (PMI) với những từ như tuyệt vời và người nghèo.
đang được dịch, vui lòng đợi..
