2. Phương pháp
Các năm mươi bốn bài báo trình bày trong cuộc khảo sát này được tóm tắt
trong Bảng 1. Bảng 1 chứa các bài báo tham khảo [4-7] và
[12-61]. Mục tiêu của bài viết này được minh họa trong ba
cột. Họ được chia thành sáu loại đó là (SA,
ED, SC, FS, TL và BR). Các thể loại BR có thể được phân loại
để lexica, Corpora hay từ điển. Các tác giả phân loại
các bài viết mà giải quyết vấn đề phân loại Sentiment như
SC. Các sản phẩm khác để giải quyết những Sentiment Analysis nói chung
vấn đề được phân loại như SA. Các bài báo đưa ra những đóng góp
trong giai đoạn lựa chọn tính năng được phân loại như FS. Sau đó,
các tác giả đã phân loại các bài viết mà đại diện cho SA
lĩnh vực liên quan như Emotion Detection (ED), xây dựng tài nguyên
(BR) và Chuyển Learning (TL).
Cột thứ tư chỉ định cho dù bài báo được domainoriented
bằng Yes / No câu trả lời (hoặc Y N). Domain-định hướng
có nghĩa là dữ liệu tên miền cụ thể được sử dụng trong quá trình SA.
Cột thứ năm cho thấy các thuật toán được sử dụng, và quy định cụ thể
danh mục của họ như thể hiện trong hình. 2. Một số bài báo khác nhau sử dụng
các thuật toán khác hơn so với các kỹ thuật SC được trình bày
trong phần 4. Điều này áp dụng, ví dụ, để công việc được trình bày
bởi Steinberger [43]. Trong trường hợp này, tên thuật toán chỉ được
viết ra. Cột thứ sáu chỉ định cho dù bài báo sử dụng
SA kỹ thuật cho Phân tích chung của Text (G) hoặc giải quyết các
vấn đề phân loại nhị phân (dương / âm). Các
cột thứ bảy minh họa phạm vi của dữ liệu được sử dụng để đánh giá
các thuật toán của bài viết. Các dữ liệu có thể được đánh giá, tin tức
bài viết, trang web, vi-blog và những người khác. Cột thứ tám
xác định tập dữ liệu chuẩn hoặc nguồn dữ liệu nổi tiếng
được sử dụng nếu có; như một số bài báo không cung cấp thông tin.
Điều này có thể giúp người đọc nếu ông là quan tâm đến một phạm vi nhất định
của dữ liệu. Cột cuối cùng xác định nếu bất kỳ ngôn ngữ nào khác
ngoài tiếng Anh được phân tích trong bài viết.
Các phương pháp điều tra như sau: giải thích ngắn gọn để
các FS nổi tiếng và các thuật toán SC đại diện cho một số liên quan đến
các lĩnh vực để SA được thảo luận. Sau đó, sự đóng góp của các
bài viết để các thuật toán được trình bày minh họa cách thức họ
sử dụng các thuật toán để giải quyết các vấn đề đặc biệt trong SA. Các chính
mục tiêu của cuộc khảo sát này là trình bày một loại duy nhất cho
các bài viết liên quan đến SA.
3. Lựa chọn tính năng phân loại tình cảm
Sentiment nhiệm vụ phân tích được coi là một phân loại tình cảm
vấn đề. Bước đầu tiên trong vấn đề SC là để trích xuất và
chọn tính năng văn bản. Một số các tính năng hiện tại là [62]:
Điều khoản và tần số xuất hiện: Các tính năng này là cá nhân
từ hoặc từ n-gram và đếm tần số của họ. Nó sẽ
mang lại cho các từ trọng nhị phân (zero nếu từ đó xuất hiện,
hoặc nếu một cách khác) hoặc sử dụng trọng số tần số hạn để chỉ ra
tầm quan trọng tương đối của các tính năng [63].
Các bộ phận của lời nói (POS): tìm các tính từ, vì họ là quan trọng
chỉ số ý kiến.
Ý kiến từ và cụm từ: đây là những từ thường được sử dụng
để thể hiện ý kiến đó có tốt hay xấu, như hay ghét. Trên
Mặt khác, một số cụm từ diễn đạt ý kiến mà không cần sử dụng ý kiến
từ. Ví dụ: chi phí cho tôi một cánh tay và một chân.
phủ định: sự xuất hiện của từ ngữ tiêu cực có thể thay đổi
các định hướng dư luận không tốt như là tương đương với xấu.
3.1. Phương pháp lựa chọn tính năng
Tính năng phương pháp lựa chọn có thể được chia thành từ vựng dựa trên
các phương pháp đó cần chú thích của con người, và phương pháp thống kê
là phương pháp tự động được sử dụng thường xuyên hơn.
Lexicon cách tiếp cận dựa trên thường bắt đầu với một tập hợp nhỏ của
'hạt giống' từ. Sau đó, họ bootstrap tập này thông qua từ đồng nghĩa
hoặc phát hiện trên mạng các nguồn lực để có được một từ vựng lớn hơn. Điều này
chứng tỏ có rất nhiều khó khăn như báo cáo của Whitelaw
et al. [64]. Phương pháp thống kê, mặt khác, phải hoàn toàn
tự động.
Các kỹ thuật lựa chọn tính năng xử lý văn bản, hoặc
là nhóm từ (Bag of Words (BOW)), hoặc như là một chuỗi
đang được dịch, vui lòng đợi..
