4.2.2. Corpus-based approachThe Corpus-based approach helps to solve t dịch - 4.2.2. Corpus-based approachThe Corpus-based approach helps to solve t Việt làm thế nào để nói

4.2.2. Corpus-based approachThe Cor

4.2.2. Corpus-based approach
The Corpus-based approach helps to solve the problem of
finding opinion words with context specific orientations. Its
methods depend on syntactic patterns or patterns that occur together along with a seed list of opinion words to find other
opinion words in a large corpus. One of these methods were
represented by Hatzivassiloglou and McKeown [89]. They
started with a list of seed opinion adjectives, and used them
along with a set of linguistic constraints to identify additional
adjective opinion words and their orientations. The constraints
are for connectives like AND, OR, BUT, EITHER-OR. . .. . .;
the conjunction AND for example says that conjoined adjectives
usually have the same orientation. This idea is called
sentiment consistency, which is not always consistent practically.
There are also adversative expressions such as but,
however which are indicated as opinion changes. In order to
determine if two conjoined adjectives are of the same or different
orientations, learning is applied to a large corpus. Then,
the links between adjectives form a graph and clustering is performed
on the graph to produce two sets of words: positive
and negative.
The Conditional Random Fields (CRFs) method [90] was
used as a sequence learning technique for extracting opinion
expressions. It was used too by Jiaoa and Zhoua [23] in order
to discriminate sentiment polarity by multi-string pattern
matching algorithm. Their algorithm was applied on Chinese
online reviews. They established many emotional dictionaries.
They worked on car, hotel and computer online reviews. Their
results showed that their method has achieved high performance.
Xu and Liao [25] have used two-level CRF model with
unfixed interdependencies to extract the comparative relations.
This was done by utilizing the complicated dependencies
between relations, entities and words, and the unfixed interdependencies
among relations. Their purpose was to make a
graphical model to extract and visualize comparative relations
between products from customer reviews. They displayed the
results as comparative relation maps for decision support in
enterprise risk management. They worked on mobile customer
reviews from amazon.com, epinions.com, blogs, SNS and
emails. Their results showed that their method can extract comparative
relations more accurately than other methods, and
their comparative relation map is potentially a very effective tool
to support enterprise risk management and decision making.
A taxonomy-based approach for extracting feature-level
opinions and map them into feature taxonomy was proposed
by Cruz and Troyano [60]. This taxonomy is a semantic representation
of the opinionated parts and attributes of an object.
Their main target was a domain-oriented OM. They defined a
set of domain-specific resources which capture valuable knowledge
about how people express opinions on a given domain.
They used resources which were automatically induced from
a set of annotated documents. They worked on three different
domains (headphones, hotels and cars reviews) from epinions.com.
They compared their approach to other domainindependent
techniques. Their results proved the importance
of the domain in order to build accurate opinion extraction
systems, as they led to an improvement of accuracy, with
respect to the domain-independent approaches.
Using the corpus-based approach alone is not as effective as
the dictionary-based approach because it is hard to prepare a
huge corpus to cover all English words, but this approach
has a major advantage that can help to find domain and context
specific opinion words and their orientations using a
domain corpus. The corpus-based approach is performed
using statistical approach or semantic approach as illustrated
in the following subsections:
4.2.2.1. Statistical approach. Finding co-occurrence patterns or
seed opinion words can be done using statistical techniques.
This could be done by deriving posterior polarities using the
co-occurrence of adjectives in a corpus, as proposed by Fahrni
and Klenner [91]. It is possible to use the entire set of indexed
documents on the web as the corpus for the dictionary construction.
This overcomes the problem of the unavailability
of some words if the used corpus is not large enough [82].
The polarity of a word can be identified by studying the
occurrence frequency of the word in a large annotated corpus
of texts [83]. If the word occurs more frequently among positive
texts, then its polarity is positive. If it occurs more frequently
among negative texts, then its polarity is negative. If
it has equal frequencies, then it is a neutral word.
The similar opinion words frequently appear together in a
corpus. This is the main observation that the state of the art
methods are based on. Therefore, if two words appear together
frequently within the same context, they are likely to have the
same polarity. Therefore, the polarity of an unknown word
can be determined by calculating the relative frequency of
co-occurrence with another word. This could be done using
PMI [82].
0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
4.2.2. corpus dựa trên phương pháp tiếp cậnCách tiếp cận dựa trên Corpus giúp để giải quyết vấn đề củaTìm kiếm ý kiến từ với bối cảnh cụ thể định hướng. Của nóphương pháp phụ thuộc vào mô hình cú pháp hoặc mẫu xảy ra với nhau cùng với một danh sách hạt giống của ý kiến từ để tìm khácý kiến từ trong corpus lớn. Một trong những phương pháp này đãđại diện bởi Hatzivassiloglou và McKeown [89]. Họbắt đầu với một danh sách các hạt giống ý kiến từ, và sử dụng chúngcùng với một tập hợp các ngôn ngữ khó khăn để xác định bổ sungmục từ tiếng ý kiến từ và định hướng của họ. Các khó khăncho connectives như AND, OR, nhưng, hay vợ.;kết hợp và ví dụ nói rằng dính tính từthường có cùng một hướng. Ý tưởng này được gọi làtình cảm tính nhất quán, có mà không phải luôn luôn nhất quán thực tế.Có cũng là biểu hiện adversative chẳng hạn như nhưng,Tuy nhiên, mà được chỉ định làm thay đổi ý kiến. Đểxác định xem hai sinh đôi dính từ cùng hoặc khác nhauđịnh hướng, học được áp dụng cho một corpus lớn. Sau đó,các liên kết giữa tính từ tạo thành một đồ thị và clustering được thực hiệntrên biểu đồ để sản xuất hai bộ từ: tích cựcvà tiêu cực.Phương pháp có điều kiện Random Fields (CRFs) [90]được sử dụng như là một trình tự học kỹ thuật đó cần giải nén ý kiếnbiểu thức. Nó được sử dụng quá bởi Jiaoa và Zhoua [23] theo thứ tựđể phân biệt đối xử tình cảm cực bởi đa chuỗi mô hìnhphù hợp với các thuật toán. Thuật toán của họ đã được áp dụng vào Trung Quốcđánh giá trực tuyến. Họ đã thiết lập nhiều tình cảm từ điển.Họ làm việc trên xe hơi, khách sạn và máy tính đánh giá trực tuyến. Của họkết quả cho thấy rằng phương pháp của họ đã đạt được hiệu suất cao.Xu và Liêu [25] đã sử dụng hai cấp CRF mô hình vớiunfixed lẫn để trích xuất các mối quan hệ so sánh.Điều này được thực hiện bằng cách sử dụng các phụ thuộc phức tạpgiữa quan hệ, tổ chức và từ và lẫn unfixedtrong số các mối quan hệ. Mục đích của họ là để làm cho mộtCác mô hình đồ họa để trích xuất và hình dung so sánh quan hệgiữa các sản phẩm từ khách hàng đánh giá. Chúng Hiển thị cáckết quả dưới dạng bản đồ so sánh quan hệ hỗ trợ quyết địnhquản lý rủi ro doanh nghiệp. Họ làm việc trên khách hàng điện thoại di độnggiá từ amazon.com, epinions.com, blog, SNS vàemail. Kết quả của họ cho thấy rằng phương pháp của họ có thể trích xuất so sánhquan hệ chính xác hơn so với các phương pháp khác, vàbản đồ so sánh quan hệ của họ có khả năng là một công cụ rất hiệu quảđể hỗ trợ quản lý rủi ro doanh nghiệp và ra quyết định.Một phân loại dựa trên phương pháp tiếp cận đó cần giải nén tính năng cấpý kiến và bản đồ chúng vào tính năng phân loại được đề xuấtbởi Cruz và Troyano [60]. Phân loại này là một đại diện ngữ nghĩakhăng khăng phần và các thuộc tính của một đối tượng.Mục tiêu chính của họ là một tên miền theo định hướng OM. Họ xác định mộttập hợp các nguồn tài nguyên tên miền cụ thể mà nắm bắt kiến thức có giá trịvề làm thế nào người dân bày tỏ ý kiến trên một tên miền nhất định.Họ sử dụng tài nguyên đó đã gây ra tự động từmột tập hợp các tài liệu chú thích. Họ làm việc trên ba khác nhautên miền (tai nghe, khách sạn và xe ô tô giá) từ epinions.com.Họ so sánh của cách tiếp cận để domainindependent kháckỹ thuật. Kết quả của họ chứng tỏ tầm quan trọngtên miền để xây dựng chính xác ý kiến khai thácHệ thống, như họ đã dẫn tới một sự cải tiến độ chính xác, vớitôn trọng đến phương pháp tiếp cận tên miền độc lập.Sử dụng corpus dựa trên phương pháp tiếp cận một mình là không hiệu quả nhưtừ điển, dựa trên phương pháp tiếp cận bởi vì nó là khó khăn để chuẩn bị mộtcorpus rất lớn để trang trải tất cả các từ tiếng Anh, nhưng cách tiếp cận nàycó một lợi thế lớn mà có thể giúp đỡ để tìm tên miền và bối cảnhý kiến cụ thể từ và định hướng của họ bằng cách sử dụng mộttên miền corpus. Corpus dựa trên phương pháp tiếp cận được thực hiệnbằng cách sử dụng phương pháp tiếp cận thống kê hoặc ngữ nghĩa cách tiếp cận như minh họatrong phần phụ sau:4.2.2.1. phương pháp tiếp cận thống kê. Việc tìm kiếm đồng xuất hiện mô hình hoặchạt giống ý kiến từ có thể được thực hiện bằng cách sử dụng kỹ thuật thống kê.Điều này có thể được thực hiện bởi phát sinh sau cực bằng cách sử dụng cácsự xuất hiện đồng tính từ trong một corpus, theo đề nghị của Fahrnivà Klenner [91]. Nó có thể sử dụng toàn bộ lập chỉ mụctài liệu trên web như là các văn thể để xây dựng từ điển.Điều này vượt qua vấn đề của unavailabilitytrong một số từ nếu các văn thể được sử dụng không phải là lớn đủ [82].Cực của một từ có thể được xác định bằng cách nghiên cứu cáctần suất xảy ra từ trong một chú thích corpus lớnvăn bản [83]. Nếu từ xảy ra thường xuyên hơn trong số tích cựcvăn bản, sau đó phân cực của nó là tích cực. Nếu nó xảy ra thường xuyên hơntrong số các tiêu cực văn bản, sau đó phân cực của nó là tiêu cực. Nếuđô thị này có bằng tần số, sau đó nó là một từ trung lập.Từ ý kiến tương tự thường xuyên xuất hiện với nhau trong mộtCorpus. Điều này là quan sát chính mà nhà nước của nghệ thuậtphương pháp được dựa trên. Do đó, nếu hai từ xuất hiện cùng nhauthường xuyên trong bối cảnh đó, họ có thể có cáccùng một phân cực. Vì vậy, cực của một từ không rõcó thể được xác định bằng cách tính toán tần số tương đối củađồng xảy ra với một từ. Điều này có thể được thực hiện bằng cách sử dụngPMI [82].
đang được dịch, vui lòng đợi..
Kết quả (Việt) 2:[Sao chép]
Sao chép!
4.2.2. Phương pháp tiếp cận dựa trên Corpus
Các phương pháp tiếp cận dựa trên Corpus giúp giải quyết các vấn đề của
việc tìm kiếm các từ quan điểm định hướng cụ thể bối cảnh. Của
phương pháp phụ thuộc vào mô hình cú pháp hoặc các mẫu mà xảy ra với nhau cùng với một danh sách hạt giống của từ quan điểm khác để tìm
những từ quan điểm trong một ngữ liệu lớn. Một trong những phương pháp này đã được
đại diện bởi Hatzivassiloglou và McKeown [89]. Họ
bắt đầu với một danh sách các tính từ quan điểm hạt giống, và sử dụng chúng
cùng với một tập các ràng buộc ngôn ngữ để xác định thêm
những từ quan điểm tính từ và định hướng của họ. Các khó khăn
là cho từ nối như AND, OR, NHƯNG DÙ-OR. . ... .;
liên từ AND ví dụ nói rằng dính liền tính từ
thường có cùng một định hướng. Ý tưởng này được gọi là
tình cảm nhất quán, đó là không phải lúc nào cũng phù hợp thực tế.
Ngoài ra còn có biểu hiện phản đối như nhưng,
tuy nhiên được chỉ định là thay đổi quan điểm. Để
xác định xem hai dính liền tính từ là các giống hay khác nhau
định hướng, học tập được áp dụng cho một ngữ liệu lớn. Sau đó,
các liên kết giữa các tính từ tạo thành một đồ thị và phân nhóm được thực hiện
trên đồ thị để sản xuất hai bộ chữ: tích cực
. và tiêu cực
The Conditional Random Fields (CRFs) phương pháp [90] đã được
sử dụng như một trình tự học kỹ thuật cho việc trích xuất ý kiến
biểu. Nó được sử dụng bởi quá Jiaoa và Zhoua [23] theo thứ tự
để phân biệt tình cảm cực của đa chuỗi mô hình
phù hợp với thuật toán. Thuật toán của họ đã được áp dụng vào Trung Quốc
đánh giá trực tuyến. Họ thành lập nhiều từ điển cảm xúc.
Họ làm việc trên xe, khách sạn, máy tính trực tuyến đánh giá. Họ
kết quả cho thấy rằng phương pháp của họ đã đạt được hiệu suất cao.
Xu và Liao [25] đã sử dụng mô hình CRF hai cấp với
phụ thuộc lẫn nhau không cố định để trích xuất các mối quan hệ so sánh.
Điều này đã được thực hiện bằng cách sử dụng các phụ thuộc phức tạp
giữa các mối quan hệ, thực thể và lời nói, và không cố định phụ thuộc lẫn nhau
giữa các mối quan hệ. Mục đích của họ là tạo ra một
mô hình đồ họa để trích xuất và hình dung các mối quan hệ so sánh
giữa các sản phẩm từ các ý kiến của khách hàng. Họ hiển thị các
kết quả như bản đồ quan hệ so sánh với hỗ trợ ra quyết định trong
quản lý rủi ro doanh nghiệp. Họ đã làm việc trên điện thoại di động của khách hàng
đánh giá từ amazon.com, epinions.com, blog, SNS và
email. Kết quả cho thấy rằng phương pháp của họ có thể trích xuất so sánh
mối quan hệ chính xác hơn so với các phương pháp khác, và
bản đồ quan hệ so sánh của họ là khả năng một công cụ rất hiệu quả
để hỗ trợ quản lý rủi ro doanh nghiệp và ra quyết định.
Một cách tiếp cận phân loại dựa trên để chiết xuất năng cấp
ý kiến và bản đồ chúng vào tính năng phân loại đã được đề xuất
bởi Cruz và Troyano [60]. Phân loại này là một đại diện ngữ nghĩa
của các bộ phận khăng và các thuộc tính của một đối tượng.
mục tiêu chính của họ là một OM miền theo định hướng. Họ định nghĩa một
tập hợp các nguồn tài nguyên tên miền cụ thể mà bắt kiến thức quý báu
về cách mọi người bày tỏ ý kiến về một tên miền nhất định.
Họ sử dụng các nguồn tài nguyên đó được tự động gây ra từ
một tập hợp các tài liệu được chú thích. Họ đã làm việc trên ba khác nhau
, lĩnh vực (tai nghe, khách sạn và đánh giá xe) từ epinions.com.
Họ so sánh cách tiếp cận của họ để domainindependent khác
kỹ thuật. Kết quả của họ đã chứng minh tầm quan trọng
của tên miền để xây dựng khai thác ý kiến chính xác
hệ thống, như họ đã dẫn đến một sự cải tiến về tính chính xác, với
sự tôn trọng với các phương pháp độc lập với miền.
Sử dụng các phương pháp tiếp cận dựa trên corpus một mình là không có hiệu quả như
các dictionary- phương pháp tiếp cận dựa trên vì nó là khó khăn để chuẩn bị một
corpus lớn để trang trải tất cả các từ tiếng Anh, nhưng cách tiếp cận này
có một lợi thế lớn mà có thể giúp tìm tên miền và bối cảnh
cụ thể từ quan điểm và định hướng của họ bằng cách sử dụng một
corpus miền. Các phương pháp tiếp cận dựa trên corpus được thực hiện
bằng cách sử dụng phương pháp thống kê hoặc cách tiếp cận ngữ nghĩa như được minh họa
trong các phần dưới đây:
4.2.2.1. Phương pháp thống kê. Tìm kiếm các mẫu đồng xảy ra hoặc
từ quan điểm của hạt giống có thể được thực hiện bằng cách sử dụng kỹ thuật thống kê.
Điều này có thể được thực hiện bằng cách bắt nguồn cực sau bằng cách sử dụng
đồng xuất hiện của tính từ trong một corpus, theo đề nghị của Fahrni
và Klenner [91]. Có thể sử dụng toàn bộ các chỉ mục
tài liệu trên web là corpus để xây dựng từ điển.
Điều này khắc phục được những vấn đề sẽ không có sẵn
của một số từ nếu corpus sử dụng là không đủ lớn [82].
Các phân cực của một từ có thể được xác định bằng cách nghiên cứu các
tần số xuất hiện của các từ trong một ngữ liệu được chú thích lớn
của văn bản [83]. Nếu từ xảy ra thường xuyên hơn ở dương
văn bản, sau đó phân cực của nó là tích cực. Nếu nó xảy ra thường xuyên hơn
trong các văn bản tiêu cực, sau đó phân cực của nó là tiêu cực. Nếu
nó có tần số bằng nhau, sau đó nó là một từ trung tính.
Những lời ý kiến tương tự thường xuyên xuất hiện cùng nhau trong một
ngữ liệu. Đây là sự quan sát chính là nhà nước của nghệ thuật
phương pháp dựa trên. Vì vậy, nếu hai chữ xuất hiện cùng nhau
thường xuyên trong bối cảnh đó, họ có thể có
cùng cực. Do đó, sự phân cực của một từ lạ
có thể được xác định bằng cách tính toán tần số tương đối của
đồng xảy ra với một từ khác. Điều này có thể được thực hiện bằng cách sử dụng
PMI [82].
đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2024 I Love Translation. All reserved.

E-mail: