An unsupervised learning algorithm

An unsupervised learning algorithm by
extracting the sentiment phrases of each review by rules
of part-of-speech (POS) patterns was investigated by
Ting-Chun Peng and Chia-Chun Shih (2010). For each
unknown sentiment phrase, they used it as a query term
to get top-N relevant snippets from a search engine
respectively. Next, by using a gathered sentiment lexicon,
predictive sentiments of unknown sentiment phrases are
computed based on the sentiments of nearby known
sentiment words inside the snippets. They consider only
opinionated sentences containing at least one detected
sentiment phrase for opinion extraction. Using the POS
pattern opinion extraction is done. Gang Li & Fei Liu
(2010) developed an approach based on the k-means
clustering algorithm. The technique of TF-IDF (term
frequency – inverse document frequency) weighting is
applied on the raw data. Then, a voting mechanism is
used to extract a more stable clustering result. The result
is obtained based on multiple implementations of the
clustering process. Finally, the term score is used to
further enhance the clustering result. Documents are
clustered into positive group and negative group.
Chaovalit and Zhou (2005) compared the Semantic
Orientation approach with the N-gram model machine
learning approach by applying to movie reviews. They
confirmed from the results that the machine learning
approach is more accurate but requires a significant
amount of time to train the model. In comparison, the
semantic orientation approach is slightly less accurate but
is more efficient to use in real-time applications. The
performance of semantic orientation also relies on the
performance of the underlying POS tagger.
3.3.Role of negation
Negation is a very common linguistic construction that
affects polarity and therefore, needs to be taken into
consideration in sentiment analysis. Negation is not only
conveyed by common negation words (not, neither, nor)
but also by other lexical units. Research in the field has shown that there are many other words that invert the
polarity of an opinion expressed, such as valence shifters,
connectives or modals. “I find the functionality of the
new mobile less practical”, is an example for valence
shifter, “Perhaps it is a great phone, but I fail to see
why”, shows the effect of connectives. An example
sentence using modal is, “In theory, the phone should
have worked even under water”. As can be seen from
these examples, negation is a difficult yet important
aspect of sentiment analysis.
Kennedy and Inkpen (2005) evaluate a negation model
which is fairly identical to the one proposed by Polanyi
and Zaenen (2004) in document-level polarity
classification. A simple scope for negation is chosen. A
polar expression is thought to be negated if the negation
word immediately precedes it. Wilson et al. (2005) carry
out more advanced negation modeling on expressionlevel
polarity classification. The work uses supervised
machine learning where negation modeling is mostly
encoded as features using polar expressions. Jin-Cheon
Na (2005), reported a study in automatically classifying
documents as expressing positive or negative.He
investigated the use of simple linguistic processing to
address the problems of negation phrase.
In sentiment analysis, the most prominent work
examining the impact of different scope models for
negation is Jia et al. (2009). They proposed a scope
detection method to handle negation using static
delimiters, dynamic delimiters, and heuristic rules
focused on polar expressions Static delimiters are
unambiguous words, such as because or unless marking
the beginning of another clause. Dynamic delimiters are,
however, rules, using contextual information such as
their pertaining part-of-speech tag. These delimiters
suitably account for various complex sentence types so
that only the clause containing the negation is considered.
The heuristic rules focus on cases in which polar
expressions in specific syntactic configurations are
directly preceded by negation words which results in the
polar expression becoming a delimiter itself.
3.4.Feature based sentiment classification
Due to the increasing amount of opinions and reviews
on the internet, Sentiment analysis has become a hot
topic in data mining, in which extracting opinion features
is a key step. Sentiment analysis at both the document
level and sentence level has been too coarse to determine
precisely what users like or dislike. In order to address
this problem, sentiment analysis at the attribute level is
aimed at extracting opinions on products' specific
attributes from reviews.
Hu‟s work in (Hu, 2005) can be considered as the
pioneer work on feature-based opinion summarization.
Their feature extraction algorithm is based on heuristics
that depend on feature terms‟ respective occurrence
counts. They use association rule mining based on the
Apriori algorithm to extract frequent itemsets as explicit
product features. Popescu et al (2005) developed an
unsupervised information extraction system called
OPINE, which extracted product features and opinions
from reviews. OPINE first extracts noun phrases from
reviews and retains those with frequency greater than an
experimentally set threshold and then assesses those by
OPINE‟s feature assessor for extracting explicit features.
The assessor evaluates a noun phrase by computing a
Point-wise Mutual Information score between the phrase
and meronymy discriminators associated with the product
class. Popescu et al apply manual extraction rules in
order to find the opinion words.
Kunpeng Zhang (2009), proposed a work which used a
keyword matching strategy to identify and tag product
features in sentences. Bing xu (2010) , presented a
Conditional Random Fields model based Chinese product
features identification approach, integrating the chunk
features and heuristic position information in addition to
the word features, part-of-speech features and context
features.
Khairullah Khan et al (2010) developed a method to
find features of product from user review in an efficient
way from text through auxiliary verbs (AV) {is, was, are,
were, has, have, had}. From the results of the
experiments, they found that 82% of features and 85% of
opinion-oriented sentences include AVs. Most of existing
methods utilize a rule-based mechanism or statistics to
extract opinion features, but they ignore the structure
characteristics of reviews. The performance has hence
not been promising.
Yongyong Zhail (2010) proposed a approach of
Opinion Feature Extraction based on Sentiment Patterns,
which takes into account the structure characteristics of
reviews for higher values of precision and recall. With a
self constructed database of sentiment patterns, sentiment
pattern matches each review sentence to obtain its
features, and then filters redundant features regarding
relevance of the domain, statistics and semantic
similarity.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Một thuật toán học không có giám sát bởigiải nén các cụm từ tình cảm của mỗi bài đánh giá theo quy tắcmột phần của bài phát biểu (POS) mô hình được điều tra doTing-Chun Peng và Chia-Chun Shih (2010). Cho mỗicụm từ không rõ tình cảm, họ sử dụng nó như một thuật ngữ truy vấnđể có được top-N đoạn có liên quan từ công cụ tìm kiếmtương ứng. Tiếp theo, bằng cách sử dụng một lexicon thu thập tình cảm,tiên đoán tình cảm của cụm từ không rõ tình cảmtính toán dựa trên tình cảm được biết đến gần đótình cảm từ bên trong các đoạn. Họ xem xét việc chỉkhăng khăng câu có chứa ít nhất một phát hiệntình cảm các cụm từ cho ý kiến khai thác. Sử dụng các POSMô hình quan điểm khai thác được thực hiện. Băng đảng Li & Fei Liu(2010) đã phát triển một cách tiếp cận dựa trên các phương tiện kthuật toán kết cụm. Kỹ thuật của lực lượng đặc nhiệm-IDF (thuật ngữtần số-tần số nghịch đảo tài liệu) nặng làáp dụng trên các dữ liệu thô. Sau đó, một cơ chế bầu cử làđược sử dụng để trích xuất một ổn định hơn cụm kết quả. Kết quảthu được dựa trên nhiều hiện thực của cácquá trình kết cụm. Cuối cùng, điểm thuật ngữ được sử dụng đểnâng cao hơn nữa các kết quả kết cụm. Tài liệutập trung vào nhóm tích cực và tiêu cực nhóm.Chaovalit và chu (2005) so sánh SemanticĐịnh hướng tiếp cận với các máy tính mô hình N-gamcách tiếp cận học tập bằng cách áp dụng để đánh giá phim. Họxác nhận từ các kết quả mà máy họcphương pháp tiếp cận là chính xác hơn nhưng đòi hỏi một quan trọngkhoảng thời gian để đào tạo các mô hình. Trong khi đó, cáccách tiếp cận ngữ nghĩa định hướng là một chút ít chính xác nhưnglà hiệu quả hơn để sử dụng trong các ứng dụng thời gian thực. Cáchiệu suất của ngữ nghĩa định hướng cũng dựa trên cáchiệu suất của tagger POS nằm bên dưới.3.3.role của phép phủ địnhPhủ định là một xây dựng ngôn ngữ rất phổ biến màảnh hưởng đến phân cực và do đó, cần phải được đưa vàoxem xét trong phân tích tình cảm. Phủ định là không chỉchuyển tải bởi từ phủ định thông dụng (không, không, cũng không phải)mà còn bởi các đơn vị từ vựng. Các nghiên cứu trong lĩnh vực đã chỉ ra rằng có rất nhiều khác từ đảo ngược cáccực của một ý kiến bày tỏ, chẳng hạn như hóa trị sang số bằng,connectives hoặc chốn. "Tôi tìm thấy các chức năng của cácmới điện thoại di động ít hơn thực tế", là một ví dụ cho hóa trịshifter, "có lẽ nó là một điện thoại lớn, nhưng tôi không thấytại sao", cho thấy tác dụng của connectives. Một ví dụcâu bằng cách sử dụng phương thức là, "trong lý thuyết, điện thoại sẽđã làm việc thậm chí dưới nước". Có thể nhìn thấy từnhững ví dụ này, phủ định là một khó khăn nhưng quan trọngkhía cạnh tình cảm phân tích.Kennedy và Inkpen (2005) đánh giá một mô hình phủ địnhđó là khá giống với một trong những đề xuất bởi Polanyivà Zaenen (2004) ở cấp tài liệu phân cựcphân loại. Một phạm vi đơn giản cho phép phủ định được chọn. Acực biểu hiện được cho là được làm hạn chế nếu phủ địnhtừ ngay lập tức đến trước nó. Wilson et al. (2005) thực hiệnhiểu thêm nâng cao phủ định mô hình trên expressionlevelphân loại phân cực. Sử dụng công việc giám sátMáy học nơi phủ định mô hình chủ yếu làmã hóa như các tính năng sử dụng biểu thức cực. Jin-ChunNa (2005), báo cáo một nghiên cứu trong tự động phân loạitài liệu như thể hiện tích cực hay tiêu cực.Ôngđiều tra việc sử dụng ngôn ngữ chế biến để đơn giảngiải quyết các vấn đề của cụm từ phủ định.Trong phân tích tình cảm, công việc nổi bật nhấtkiểm tra tác động của các phạm vi khác nhau mô hình chophủ định là giả và ctv (2009). Họ đề xuất một phạm viphương pháp phát hiện để xử lý phủ định bằng cách sử dụng tĩnhdelimiters, delimiters năng động và quy tắc heuristictập trung vào cực biểu thức tĩnh delimitersrõ ràng từ, chẳng hạn như vì hoặc trừ khi đánh dấusự khởi đầu của một mệnh đề. Năng động delimiters,Tuy nhiên, quy tắc, chẳng hạn như sử dụng thông tin theo ngữ cảnhpertaining thẻ một phần của bài phát biểu của họ. Các delimitersphù hợp chiếm câu phức tạp khác nhau vì vậyrằng chỉ các khoản có chứa phép phủ định được coi là.Các quy tắc heuristic tập trung vào các trường hợp trong đó cựcbiểu hiện ở cụ thể cấu hình cú pháptrực tiếp trước bằng phủ định từ mà kết quả trong cáccực biểu hiện trở thành một delimiter chính nó.3.4.Feature dựa trên tình cảm phân loạiDo số lượng ngày càng tăng của các ý kiến và đánh giátrên internet, phân tích tình cảm đã trở thành một nóngchủ đề trong khai thác dữ liệu, trong đó tính năng ý kiến giải nénlà một bước quan trọng. Phân tích tình cảm lúc cả hai tài liệuđộ cao cấp và câu đã quá thô để xác địnhchính xác là những gì người dùng thích hay không thích. Để địa chỉvấn đề này, phân tích tình cảm ở mức thuộc tính lànhằm mục đích chiết xuất ý kiến về sản phẩm cụ thểthuộc tính từ đánh giá.Hu‟s làm việc trong (Hu, 2005) có thể được coi như là cáctiên phong làm việc về tính năng dựa trên ý kiến tổng hợp.Thuật toán khai thác tính năng của họ dựa trên chẩn đoánmà phụ thuộc vào tính năng terms‟ tương ứng xảy rađếm. Họ sử dụng khai thác mỏ quy tắc của Hiệp hội, dựa trên cácApriori thuật toán để giải nén itemsets thường xuyên như rõ ràngtính năng sản phẩm. Popescu et al (2005) đã phát triển mộtHệ thống khai thác thông tin không có giám sát được gọi làOPINE, chiết xuất các tính năng sản phẩm và ý kiếntừ đánh giá. OPINE đầu tiên chiết xuất từ cụm từnhận xét và giữ lại những người với tần suất lớn hơn mộtthử nghiệm thiết lập ngưỡng và sau đó đánh giá củaOPINE‟s tính năng assessor tính năng rõ ràng cần giải nén.Assessor đánh giá một danh ngữ bởi máy tính mộtPoint-Wise lẫn nhau thông tin điểm giữa cụm từvà meronymy discriminators liên quan đến sản phẩmlớp. Popescu et al áp dụng quy tắc hướng dẫn sử dụng khai thác trongThứ tự để tìm các từ ý kiến.Kunpeng trương (2009), đề xuất một công việc mà sử dụng mộttừ khóa phù hợp với chiến lược để xác định và khóa sản phẩmtính năng trong câu. Bing xu (2010), trình bày mộtCó điều kiện Random Fields mô hình dựa trên sản phẩm Trung Quốctính năng nhận dạng cách tiếp cận, tích hợp đoạntính năng và heuristic thông tin thêm vào vị trí.Các tính năng từ, tính năng một phần của bài phát biểu và bối cảnhtính năng.Khairullah Khan et al (2010) đã phát triển một phương pháp đểtìm thấy các tính năng của sản phẩm từ người sử dụng xem xét tại một hiệu quảcách từ văn bản thông qua trợ động từ (AV) {là,,,, có, có, có}. Từ kết quả của cácthí nghiệm, họ thấy rằng 82% của tính năng và 85%ý kiến theo định hướng câu bao gồm AVs. Hầu hết sẵn cóphương pháp sử dụng một quy tắc dựa trên cơ chế hoặc số liệu thống kê đểchiết xuất ý kiến tính năng, nhưng họ bỏ qua cấu trúcđặc điểm của đánh giá. Hiệu suất đã do đókhông được hứa hẹn.Yongyong Zhail (2010) đã đề xuất một cách tiếp cận củaÝ kiến tính năng khai thác dựa trên mô hình tình cảm,mà sẽ đưa vào tài khoản các đặc tính cấu trúc củanhận xét về các giá trị cao hơn của độ chính xác và thu hồi. Với mộttự xây dựng cơ sở dữ liệu của mô hình tình cảm, tình cảmMô hình phù hợp với mỗi câu xem xét để có được của nócó, và sau đó bộ lọc dư thừa các tính năng liên quan đếnmức độ liên quan tên miền, thống kê và ngữ nghĩatương tự.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.