3.1. Machine LearningThe machine learning approach applicable tosentim dịch - 3.1. Machine LearningThe machine learning approach applicable tosentim Việt làm thế nào để nói

3.1. Machine LearningThe machine le

3.1. Machine Learning
The machine learning approach applicable to
sentiment analysis mostly belongs to supervised
classification in general and text classification techniques
in particular. Thus, it is called „„supervised learning”. In a
machine learning based classification, two sets of
documents are required: training and a test set. A training
set is used by an automatic classifier to learn the
differentiating characteristics of documents, and a test set
is used to validate the performance of the automatic
classifier. A number of machine learning techniques have
been adopted to classify the reviews. Machine learning
techniques like Naive Bayes (NB), maximum entropy
(ME), and support vector machines (SVM) have achieved
great success in text categorization. The other most wellknown
machine learning methods in the natural language
processing area are
K-Nearest neighbourhood, ID3, C5, centroid classifier,
winnow classifier, and the N-gram model.
Naive Bayes is a simple but effective classification
algorithm. The Naive Bayes algorithm is widely used
algorithm for document classification (Melville et al.,
2009; Rui Xia, 2011; Ziqiong, 2011; Songho tan, 2008 and Qiang Ye, 2009). The basic idea is to estimate the
probabilities of categories given a test document by using
the joint probabilities of words and categories. The naive
part of such a model is the assumption of word
independence. The simplicity of this assumption makes
the computation of Naive Bayes classifier far more
efficient.
Support vector machines (SVM), a discriminative
classifier is considered the best text classification method
(Rui Xia, 2011; Ziqiong, 2011; Songho tan, 2008 and
Rudy Prabowo, 2009). . The support vector machine is a
statistical classification method proposed by Vapnik .
Based on the structural risk minimization principle from
the computational learning theory, SVM seeks a decision
surface to separate the training data points into two
classes and makes decisions based on the support vectors
that are selected as the only effective elements in the
training set. Multiple variants of SVM have been
developed in which Multi class SVM is used for
Sentiment classification (Kaiquan Xu, 2011).
The idea behind the centroid classification algorithm is
extremely simple and straightforward (Songho tan,
2008). Initially the prototype vector or centroid vector for
each training class is calculated, then the similarity
between a testing document to all centroid is computed,
finally based on these similarities, document is assigned
to the class corresponding to the most similar centroid.
The K-nearest neighbor (KNN) is a typical example
based classifier that does not build an explicit, declarative
representation of the category, but relies on the category
labels attached to the training documents similar to the
test document. Given a test document d, the system finds
the k nearest neighbors among training documents. The
similarity score of each nearest neighbor document to the
test document is used as the weight of the classes of the
neighbor document (Songho tan, 2008).
Winnow is a well-known online mistaken-driven
method. It works by updating its weights in a sequence of
trials. On each trial, it first makes a prediction for one
document and then receives feedback; if a mistake is
made, it updates its weight vector using the document.
During the training phase, with a collection of training
data, this process is repeated several times by iterating on
the data (Songho tan, 2008). Besides these classifiers
other classifiers like ID3 and C5 are also investigated
(Rudy Prabowo, 2009).
Besides using these above said machine learning
methods individually for sentiment classification, various
comparative studies have been done to find the best
choice of machine learning method for sentiment
classification. Songbo Tan (2008) presents an empirical
study of sentiment categorization on Chinese documents.
He investigated four feature selection methods (MI,IG,
CHI and DF) and five learning methods (centroid
classifier, K-nearest neighbor, winnow classifier, Naive
Bayes and SVM) on a Chinese sentiment corpus. From
the results he concludes that, IG performs the best for
sentimental terms selection and SVM exhibits the best
performance for sentiment classification. When applying
SVM, naive Bayes and n-gram model to the destination
reviews, Ye et al. (2009) found that SVM outperforms
the other two classifiers.
Rudy Prabowo (2009) described an extension by
combining rule-based classification, supervised learning
and machine learning into a new combined method. For
each sample set, they carried out 10-fold cross validation.
For each fold, the associated samples were divided into
training and a test set. For each test sample, a hybrid
classification is carried out, i.e., if one classifier fails to
classify a document, the classifier passes the document
onto the next classifier, until the document is classified or
no other classifier exists. Given a training set, the Rule
Based Classifier (RBC) used a Rule Generator to
generate a set of rules and a set of antecedents to
represent the test sample and used the rule set derived
from the training set to classify the test sample. If the test
sample was unclassified, the RBC passed the associated
antecedents onto the Statistic Based Classifier (SBC), if
the SBC could not classify the test sample; the SBC
passed the associated antecedents onto the General
Inquirer Based Classifier (GIBC), which used the 3672
simple rules to determine the consequents of the
antecedents. The Support vector machine (SVM) was
given a training set to classify the test sample if the three
classifiers failed to classify the same.
0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
3.1. máy họcMáy học phương pháp áp dụng chophân tích tình cảm chủ yếu thuộc về giám sátphân loại trong kỹ thuật phân loại nói chung và văn bảnđặc biệt. Do đó, nó được gọi là "" giám sát học tập". Trong mộtMáy phân loại học dựa, hai bộtài liệu được yêu cầu: đào tạo và thử nghiệm một thiết lập. Đào tạothiết lập được sử dụng bởi một loại tự động để tìm hiểu cácCác đặc điểm khác biệt của tài liệu, và một bộ kiểm trađược sử dụng để xác nhận hiệu suất tự độngloại. Một số máy học tập kỹ thuật cóđược sử dụng để phân loại những nhận xét. Máy họckỹ thuật như ngây thơ Bayes (NB), tối đa entropy(Tôi), và hỗ trợ vector máy (SVM) đã đạt đượcthành công lớn trong phân loại văn bản. Hầu hết náoMáy học phương pháp trong ngôn ngữ tự nhiênxử lý khu vựcK-gần nhất khu phố, ID3, C5, loại centroid,vỗ loại, và mô hình N-gam.Ngây thơ Bayes là một đơn giản nhưng hiệu quả phân loạithuật toán. Thuật toán ngây thơ Bayes được dùng rộng rãithuật toán để phân loại tài liệu (Melville et al.,năm 2009; Rui hạ, năm 2011; Ziqiong, năm 2011; Songho tân, 2008 và Qiang Ye, 2009). Ý tưởng cơ bản là để ước lượng cácxác suất của thể loại cho một tài liệu thử nghiệm bằng cách sử dụngcác xác suất phần của từ và thư mục. Ngây thơmột phần của một mô hình như vậy là giả định của từđộc lập. Sự đơn giản của giả định này làm chotính toán của ngây thơ Bayes loại hơnhiệu quả.Hỗ trợ vector máy (SVM), một discriminativeloại được coi là phương pháp tốt nhất phân loại văn bản(Rui hạ, năm 2011; Ziqiong, năm 2011; Songho tân, 2008 vàRudy Prabowo, 2009). . Máy vectơ hỗ trợ là mộtthống kê phân loại phương pháp được đề xuất bởi Vapnik.Dựa trên nguyên tắc giảm thiểu nguy cơ cấu trúc từlý thuyết toán học, SVM tìm kiếm một quyết địnhbề mặt để tách các điểm dữ liệu đào tạo thành haiCác lớp học và làm cho các quyết định dựa trên các vectơ hỗ trợmà được lựa chọn là chỉ có hiệu quả các yếu tố trong cácđào tạo thiết lập. Nhiều biến thể của SVM đãphát triển trong lớp học đa SVM được sử dụng choTình cảm các phân loại (Kaiquan Xu, năm 2011).Ý tưởng đằng sau thuật toán phân loại centroidcực kỳ đơn giản và đơn giản (Songho tan,Năm 2008). Ban đầu véc tơ nguyên mẫu hoặc centroid vector chomỗi lớp đào tạo tính toán, sau đó là sự giống nhaugiữa một tài liệu thử nghiệm để tất cả centroid được tính,cuối cùng, dựa trên những điểm tương đồng, tài liệu được chỉ địnhđể các lớp tương ứng với centroid đặt tương tự.K, gần nhất hàng xóm (KNN) là một ví dụ điển hìnhDựa trên loại mà không xây dựng một rõ ràng, kỹđại diện của các loại, nhưng dựa trên các loạinhãn gắn liền với các tài liệu đào tạo tương tự như cáckiểm tra tài liệu. Đưa ra một thử nghiệm tài liệu d, Hệ thống tìm thấyk gần nhất hàng xóm trong số các tài liệu đào tạo. Cáctương tự được điểm của mỗi gần nhất hàng xóm tài liệu để cáckiểm tra tài liệu được sử dụng như trọng lượng của các lớp học của cáchàng xóm các tài liệu (Songho tan, 2008).Winnow là một nổi tiếng trực tuyến nhầm lẫn-lái xephương pháp. Nó hoạt động bằng cách Cập Nhật của nó trọng lượng trong một chuỗithử nghiệm. Trên mỗi phiên tòa, nó lần đầu tiên làm cho một dự báo cho mộttài liệu và sau đó nhận được thông tin phản hồi; Nếu một lỗi lànó thực hiện, Cập Nhật vector trọng lượng bằng cách sử dụng các tài liệu.Trong giai đoạn đào tạo, với một bộ sưu tập của đào tạodữ liệu, quá trình này được lặp đi lặp lại nhiều lần bởi iterating trêndữ liệu (Songho tan, 2008). Bên cạnh các máy phân loạiMáy phân loại khác như ID3 và C5 cũng đang điều tra(Rudy Prabowo, 2009).Bên cạnh việc sử dụng các ở trên cho biết máy họcphương pháp riêng để phân loại tình cảm, khác nhauso sánh nghiên cứu đã được thực hiện để tìm tốt nhấtsự lựa chọn của máy phương pháp học tập cho tình cảmphân loại. Songbo Tan (2008) thể hiện một thực nghiệmnghiên cứu về tình cảm loại trên tài liệu Trung Quốc.Ông nghiên cứu bốn tính năng phương pháp lựa chọn (MI, IG,CHI và DF) và phương pháp học tập năm (centroidloại, K, gần nhất với hàng xóm, vỗ loại, ngây thơBayes và SVM) trên một corpus Trung Quốc tình cảm. Từkết quả ông kết luận rằng, IG thực hiện tốt nhất chotình cảm điều khoản lựa chọn và SVM thể hiện tốt nhấthiệu suất cho phân loại tình cảm. Khi áp dụngSVM, ngây thơ Bayes và mô hình n-gam đến đíchđánh giá, Ye et al. (2009) tìm thấy rằng SVM nhanh hơn soCác khác máy phân loại hai.Rudy Prabowo (2009) Mô tả một phần mở rộng bởikết hợp các quy tắc dựa trên phân loại, giám sát học tậpvà máy học vào một phương pháp kết hợp mới. Chomỗi bộ mẫu, họ tiến hành 10-fold xác nhận qua.Cho mỗi màn hình đầu tiên, các mẫu liên kết được chia thànhđào tạo và thử nghiệm một thiết lập. Cho mỗi mẫu thử nghiệm, một laiphân loại được thực hiện, ví dụ, nếu một loại khôngphân loại một tài liệu, loại đi các tài liệuvào loại tiếp theo, cho đến khi các tài liệu được phân loại hoặckhông có loại khác tồn tại. Cho một tập hợp đào tạo, các quy tắcDựa trên loại (RBC) sử dụng một máy phát điện quy tắc đểtạo ra một tập các quy tắc và một tập hợp các dòng đểđại diện cho mẫu thử nghiệm và sử dụng các quy tắc đặt từ dẫn xuấttừ bộ đào tạo để phân loại các mẫu thử nghiệm. Nếu thử nghiệmmẫu là không phân loại, RBC thông qua các liên kếtdòng lên các số liệu thống kê dựa trên loại (SBC), nếuSBC có thể không phân loại các mẫu thử nghiệm; SBCthông qua dòng kết hợp lên tướng quânInquirer dựa trên loại (GIBC), sử dụng các 3672Các quy tắc đơn giản để xác định consequents của cácdòng. Máy vectơ hỗ trợ (SVM) làcho một tập hợp đào tạo để phân loại các mẫu thử nghiệm nếu baMáy phân loại thất bại trong việc phân loại như vậy.
đang được dịch, vui lòng đợi..
Kết quả (Việt) 2:[Sao chép]
Sao chép!
3.1. Máy Học
Các cách tiếp cận máy học áp dụng để
phân tích tình cảm chủ yếu thuộc về giám sát
phân loại nói chung và văn bản kỹ thuật phân loại
đặc biệt. Vì vậy, nó được gọi là "" giám sát học tập ". Trong một
học máy phân loại dựa trên hai bộ
tài liệu được yêu cầu: đào tạo và một bộ kiểm tra. Một huấn luyện
tập được sử dụng bởi một bộ phân loại tự động để tìm hiểu những
đặc điểm khác biệt của các tài liệu, và một bộ thử nghiệm
được sử dụng để xác nhận việc thực hiện tự động
phân loại. Một số kỹ thuật máy học đã
được áp dụng để phân loại các ý kiến. Máy học tập
các kỹ thuật như Naive Bayes (NB), entropy tối đa
(ME), và máy vector hỗ trợ (SVM) đã đạt được những
thành công lớn trong phân loại văn bản. Các wellknown nhất khác
phương pháp học máy trong ngôn ngữ tự nhiên
khu vực chế biến là
K-gần khu phố, ID3, C5, phân centroid,
sàng lọc phân loại, và các mô hình N-gram.
Naive Bayes là một phân loại đơn giản nhưng hiệu quả
thuật toán. Các thuật toán Naive Bayes được sử dụng rộng rãi
cho các thuật toán phân loại tài liệu (Melville et al,.
2009; Rui Xia, 2011; Ziqiong, 2011; Songho tan, 2008 và Qiang Ye, 2009). Ý tưởng cơ bản là để ước tính
xác suất của các loại cho một tài liệu kiểm tra bằng cách sử dụng
các xác suất chung của ngôn từ và danh mục. Vô tư
một phần của mô hình này là giả định của từ
độc lập. Sự đơn giản của giả định này làm cho
việc tính toán Naive Bayes classifier xa hơn
. hiệu quả
Hỗ trợ máy vector (SVM), một phân biệt
phân loại được coi là phương pháp phân loại văn bản tốt nhất
(Rui Xia, 2011; Ziqiong, 2011; Songho tan, 2008 và
Rudy Prabowo , 2009). . Các máy vector hỗ trợ là một
phương pháp phân loại thống kê bởi Vapnik đề xuất.
Dựa trên nguyên tắc tối thiểu hóa rủi ro cấu trúc từ
các lý thuyết học tính toán, SVM tìm một quyết định
bề mặt để tách các điểm dữ liệu huấn luyện thành hai
lớp và đưa ra quyết định dựa trên các vector hỗ trợ
đó là chọn là yếu tố chỉ có hiệu lực trong
tập huấn luyện. Nhiều biến thể của SVM đã được
phát triển trong đó đa lớp SVM được sử dụng để
phân loại Sentiment (Kaiquan Xu, 2011).
Ý tưởng đằng sau các thuật toán phân loại trọng tâm là
cực kỳ đơn giản và dễ hiểu (Songho tan,
2008). Ban đầu các vector mẫu thử nghiệm hoặc vector trọng tâm cho
mỗi lớp đào tạo được tính toán, sau đó sự giống nhau
giữa một tài liệu thử nghiệm cho tất cả các trọng tâm là tính toán,
cuối cùng dựa trên những điểm tương đồng, tài liệu được giao
để các lớp tương ứng với trọng tâm tương tự nhất.
The K-gần hàng xóm (KNN) là một ví dụ điển hình
dựa trên phân loại mà không xây dựng một rõ ràng, khai báo
đại diện của các thể loại, nhưng dựa vào các loại
nhãn mác gắn liền với tài liệu đào tạo tương tự như các
tài liệu kiểm tra. Với một tài liệu kiểm tra d, hệ thống tìm thấy
các k láng giềng gần nhất giữa các tài liệu tập huấn. Những
điểm giống nhau của mỗi tài liệu hàng xóm gần nhất đến các
tài liệu kiểm tra được sử dụng như là trọng lượng của các lớp học của các
tài liệu hàng xóm (Songho tan, 2008).
vỗ là một nổi tiếng trực tuyến nhầm hướng
phương pháp. Nó hoạt động bằng cách cập nhật trọng lượng của nó trong một chuỗi các
cuộc thử nghiệm. Trên mỗi thử nghiệm, đầu tiên nó làm cho một dự đoán cho một
tài liệu và sau đó nhận được thông tin phản hồi; nếu một sai lầm được
thực hiện, nó cập nhật vector trọng lượng của nó bằng cách sử dụng tài liệu.
Trong giai đoạn huấn luyện, với một bộ sưu tập các tập
dữ liệu, quá trình này được lặp đi lặp lại nhiều lần bằng cách duyệt trên
các dữ liệu (Songho tan, 2008). Bên cạnh những phân loại
phân loại khác như ID3 và C5 cũng được điều tra
(Rudy Prabowo, 2009).
Ngoài việc sử dụng các nêu trên máy tính học tập
phương pháp riêng để phân loại tình cảm, nhiều
nghiên cứu so sánh đã được thực hiện để tìm ra tốt nhất
lựa chọn phương pháp học máy cho tình cảm
phân loại . Songbo Tân (2008) trình bày một thực nghiệm
nghiên cứu về tâm lý phân loại trên các tài liệu của Trung Quốc.
Ông đã nghiên cứu bốn phương pháp lựa chọn tính năng (MI, IG,
CHI và DF) và năm phương pháp học tập (trọng tâm
phân loại, K-lân cận gần nhất, sàng lọc phân loại, Naive
Bayes và SVM) vào một tình cảm corpus Trung Quốc. Từ
những kết quả, ông kết luận rằng, IG thực hiện tốt nhất cho
tình cảm về mặt lựa chọn và SVM trưng bày tốt nhất
hiệu suất phân loại tình cảm. Khi áp dụng
SVM, ngây thơ Bayes và mô hình n-gram đến đích
đánh giá, Ye et al. (2009) nhận thấy rằng SVM nhanh hơn so với
hai phân loại khác.
Rudy Prabowo (2009) mô tả một phần mở rộng bằng
cách kết hợp phân loại dựa trên nguyên tắc, học có giám sát
và máy học tập thành một phương pháp kết hợp mới. Đối với
mỗi mẫu thiết lập, họ thực hiện xác nhận chéo gấp 10 lần.
Đối với mỗi lần, các mẫu liên quan đã được chia thành
đào tạo và một bộ kiểm tra. Đối với mỗi mẫu thử nghiệm, một lai
phân loại được thực hiện, ví dụ, nếu một phân loại không
phân loại tài liệu, phân loại qua các tài liệu
vào phân loại tiếp theo, đến khi tài liệu được phân loại hoặc
không phân loại khác tồn tại. Cho một tập huấn luyện, các Rule
Based Classifier (RBC) sử dụng một máy phát điện Rule để
tạo ra một tập hợp các quy tắc và một tập hợp các tiền đề để
đại diện cho các mẫu thử nghiệm và sử dụng các thiết lập quy tắc xuất phát
từ việc đào tạo thiết để phân loại các mẫu thử nghiệm. Nếu xét nghiệm
mẫu đã được phân loại, RBC thông qua các liên kết
vào các tiền thân Thống kê Dựa Classifier (SBC), nếu
các SBC không thể phân loại các mẫu thử nghiệm; SBC
thông qua các tiền đề có liên quan vào chung
Inquirer Dựa Classifier (GIBC), trong đó sử dụng 3672
quy tắc đơn giản để xác định consequents của
tổ tiên. Các máy hỗ trợ vector (SVM) đã
đưa ra một tập huấn luyện để phân loại các mẫu thử nghiệm nếu ba
không phân loại để phân loại như vậy.
đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2024 I Love Translation. All reserved.

E-mail: