4.2.2. Phương pháp tiếp cận dựa trên Corpus
Các phương pháp tiếp cận dựa trên Corpus giúp giải quyết các vấn đề của
việc tìm kiếm các từ quan điểm định hướng cụ thể bối cảnh. Của
phương pháp phụ thuộc vào mô hình cú pháp hoặc các mẫu mà xảy ra với nhau cùng với một danh sách hạt giống của từ quan điểm khác để tìm
những từ quan điểm trong một ngữ liệu lớn. Một trong những phương pháp này đã được
đại diện bởi Hatzivassiloglou và McKeown [89]. Họ
bắt đầu với một danh sách các tính từ quan điểm hạt giống, và sử dụng chúng
cùng với một tập các ràng buộc ngôn ngữ để xác định thêm
những từ quan điểm tính từ và định hướng của họ. Các khó khăn
là cho từ nối như AND, OR, NHƯNG DÙ-OR. . ... .;
liên từ AND ví dụ nói rằng dính liền tính từ
thường có cùng một định hướng. Ý tưởng này được gọi là
tình cảm nhất quán, đó là không phải lúc nào cũng phù hợp thực tế.
Ngoài ra còn có biểu hiện phản đối như nhưng,
tuy nhiên được chỉ định là thay đổi quan điểm. Để
xác định xem hai dính liền tính từ là các giống hay khác nhau
định hướng, học tập được áp dụng cho một ngữ liệu lớn. Sau đó,
các liên kết giữa các tính từ tạo thành một đồ thị và phân nhóm được thực hiện
trên đồ thị để sản xuất hai bộ chữ: tích cực
. và tiêu cực
The Conditional Random Fields (CRFs) phương pháp [90] đã được
sử dụng như một trình tự học kỹ thuật cho việc trích xuất ý kiến
biểu. Nó được sử dụng bởi quá Jiaoa và Zhoua [23] theo thứ tự
để phân biệt tình cảm cực của đa chuỗi mô hình
phù hợp với thuật toán. Thuật toán của họ đã được áp dụng vào Trung Quốc
đánh giá trực tuyến. Họ thành lập nhiều từ điển cảm xúc.
Họ làm việc trên xe, khách sạn, máy tính trực tuyến đánh giá. Họ
kết quả cho thấy rằng phương pháp của họ đã đạt được hiệu suất cao.
Xu và Liao [25] đã sử dụng mô hình CRF hai cấp với
phụ thuộc lẫn nhau không cố định để trích xuất các mối quan hệ so sánh.
Điều này đã được thực hiện bằng cách sử dụng các phụ thuộc phức tạp
giữa các mối quan hệ, thực thể và lời nói, và không cố định phụ thuộc lẫn nhau
giữa các mối quan hệ. Mục đích của họ là tạo ra một
mô hình đồ họa để trích xuất và hình dung các mối quan hệ so sánh
giữa các sản phẩm từ các ý kiến của khách hàng. Họ hiển thị các
kết quả như bản đồ quan hệ so sánh với hỗ trợ ra quyết định trong
quản lý rủi ro doanh nghiệp. Họ đã làm việc trên điện thoại di động của khách hàng
đánh giá từ amazon.com, epinions.com, blog, SNS và
email. Kết quả cho thấy rằng phương pháp của họ có thể trích xuất so sánh
mối quan hệ chính xác hơn so với các phương pháp khác, và
bản đồ quan hệ so sánh của họ là khả năng một công cụ rất hiệu quả
để hỗ trợ quản lý rủi ro doanh nghiệp và ra quyết định.
Một cách tiếp cận phân loại dựa trên để chiết xuất năng cấp
ý kiến và bản đồ chúng vào tính năng phân loại đã được đề xuất
bởi Cruz và Troyano [60]. Phân loại này là một đại diện ngữ nghĩa
của các bộ phận khăng và các thuộc tính của một đối tượng.
mục tiêu chính của họ là một OM miền theo định hướng. Họ định nghĩa một
tập hợp các nguồn tài nguyên tên miền cụ thể mà bắt kiến thức quý báu
về cách mọi người bày tỏ ý kiến về một tên miền nhất định.
Họ sử dụng các nguồn tài nguyên đó được tự động gây ra từ
một tập hợp các tài liệu được chú thích. Họ đã làm việc trên ba khác nhau
, lĩnh vực (tai nghe, khách sạn và đánh giá xe) từ epinions.com.
Họ so sánh cách tiếp cận của họ để domainindependent khác
kỹ thuật. Kết quả của họ đã chứng minh tầm quan trọng
của tên miền để xây dựng khai thác ý kiến chính xác
hệ thống, như họ đã dẫn đến một sự cải tiến về tính chính xác, với
sự tôn trọng với các phương pháp độc lập với miền.
Sử dụng các phương pháp tiếp cận dựa trên corpus một mình là không có hiệu quả như
các dictionary- phương pháp tiếp cận dựa trên vì nó là khó khăn để chuẩn bị một
corpus lớn để trang trải tất cả các từ tiếng Anh, nhưng cách tiếp cận này
có một lợi thế lớn mà có thể giúp tìm tên miền và bối cảnh
cụ thể từ quan điểm và định hướng của họ bằng cách sử dụng một
corpus miền. Các phương pháp tiếp cận dựa trên corpus được thực hiện
bằng cách sử dụng phương pháp thống kê hoặc cách tiếp cận ngữ nghĩa như được minh họa
trong các phần dưới đây:
4.2.2.1. Phương pháp thống kê. Tìm kiếm các mẫu đồng xảy ra hoặc
từ quan điểm của hạt giống có thể được thực hiện bằng cách sử dụng kỹ thuật thống kê.
Điều này có thể được thực hiện bằng cách bắt nguồn cực sau bằng cách sử dụng
đồng xuất hiện của tính từ trong một corpus, theo đề nghị của Fahrni
và Klenner [91]. Có thể sử dụng toàn bộ các chỉ mục
tài liệu trên web là corpus để xây dựng từ điển.
Điều này khắc phục được những vấn đề sẽ không có sẵn
của một số từ nếu corpus sử dụng là không đủ lớn [82].
Các phân cực của một từ có thể được xác định bằng cách nghiên cứu các
tần số xuất hiện của các từ trong một ngữ liệu được chú thích lớn
của văn bản [83]. Nếu từ xảy ra thường xuyên hơn ở dương
văn bản, sau đó phân cực của nó là tích cực. Nếu nó xảy ra thường xuyên hơn
trong các văn bản tiêu cực, sau đó phân cực của nó là tiêu cực. Nếu
nó có tần số bằng nhau, sau đó nó là một từ trung tính.
Những lời ý kiến tương tự thường xuyên xuất hiện cùng nhau trong một
ngữ liệu. Đây là sự quan sát chính là nhà nước của nghệ thuật
phương pháp dựa trên. Vì vậy, nếu hai chữ xuất hiện cùng nhau
thường xuyên trong bối cảnh đó, họ có thể có
cùng cực. Do đó, sự phân cực của một từ lạ
có thể được xác định bằng cách tính toán tần số tương đối của
đồng xảy ra với một từ khác. Điều này có thể được thực hiện bằng cách sử dụng
PMI [82].
đang được dịch, vui lòng đợi..