5.2. Building resourcesBuilding Res

5.2. Building resources
Building Resources (BR) aims at creating lexica, dictionaries
and corpora in which opinion expressions are annotated
according to their polarity. Building resources is not a SA task,
but it could help to improve SA and ED as well. The main
challenges that confronted the work in this category are
ambiguity of words, multilinguality, granularity and the
differences in opinion expression among textual genres [11].
Building Lexicon was presented by Tan and Wu [20]. In
their work, they proposed a random walk algorithm to construct
domain-oriented sentiment lexicon by simultaneously
utilizing sentiment words and documents from both old
domain and target domain. They conducted their experiments
on three domain-specific sentiment data sets. Their experimental
results indicated that their proposed algorithm improved
the performance of automatic construction of domain-oriented
sentiment lexicon.
Building corpus was introduced by Robaldo and Di Caro
[34]. They proposed Opinion Mining-ML, a new XML-based
formalism for tagging textual expressions conveying opinions
on objects that are considered relevant in the state of affairs.
It is a new standard beside Emotion-ML and WordNet. Their
work consisted of two parts. First, they presented a standard
methodology for the annotation of affective statements in the
text that was strictly independent from any application domain.
Second, they considered the domain-specific adaptation that
relied on the use of ontology of support which is domaindependent.
They started with data set of restaurant reviews
applying query-oriented extraction process. They evaluated
their proposal by means of fine-grained analysis of the disagreement
between different annotators. Their results indicated that
their proposal represented an effective annotation scheme that was able to cover high complexity while preserving good
agreement among different people.
Boldrini et al. [41] have focused on the creation of EmotiBlog,
a fine-grained annotation scheme for labeling subjectivity
in nontraditional textual genres. They focused on the annotation
at different levels: document, sentence and element. They
also presented the EmotiBlog corpus; a collection of blog posts
composed by 270,000 token about three topics in three
languages: Spanish, English and Italian. They checked the
robustness of the model and its applicability to NLP tasks.
They tested their model on many corpora i.e. ISEAR. Their
experiments provided satisfactory results. They applied
EmotiBlog to sentiment polarity classification and emotion
detection. They proved that their resource improved the
performance of systems built for this task.
Building Dictionary was presented by Steinberger et al. [43].
In their work they proposed a semi-automatic approach to
creating sentiment dictionaries in many languages. They first
produced high-level gold-standard sentiment dictionaries for
two languages and then translated them automatically into a
third language. Those words that can be found in both target
language word lists are likely to be useful because their word
senses are likely to be similar to that of the two source
languages. They addressed two issues during their work; the
morphological inflection and the subjectivity involved in the
human annotation and evaluation effort. They worked on
news data. They compared their triangulated lists with the
non-triangulated machine-translated word lists and verified
their approach.
5.3. Transfer learning
Transfer learning extracts knowledge from auxiliary domain to
improve the learning process in a target domain. For example,
it transfers knowledge from Wikipedia documents to tweets or
a search in English to Arabic. Transfer learning is considered a
new cross domain learning technique as it addresses the
various aspects of domain differences. It is used to enhance
many Text mining tasks like text classification [107], sentiment
analysis [108], Named Entity recognition [109], part-of-speech
tagging [110], ... etc.
In Sentiment Analysis; transfer learning can be applied to
transfer sentiment classification from one domain to another
[21] or building a bridge between two domains [22]. Tan and
Wang [21] proposed an Entropy-based algorithm to pick out
high-frequency domain-specific (HFDS) features as well as a
weighting model which weighted the features as well as the
instances. They assigned a smaller weight to HFDS features
and a larger weight to instances with the same label as the
involved pivot feature. They worked on education, stock and
computer reviews that come from a domain-specific Chinese
data set. They proved that their proposed model could overcome
the adverse influence of HFDS features. They also
showed that their model is a better choice for SA applications
that require high-precision classification which have hardly
any labeled training data.
Wu and Tan [22] have proposed a two-stage framework for
cross-domain sentiment classification. In the first stage they
built a bridge between the source domain and the target
domain to get some most confidently labeled documents in
the target domain. In the second stage they exploited the
intrinsic structure, revealed by these labeled documents to
label the target-domain data. They worked on books, hotels,
and notebook reviews that came from a domain-specific Chinese
data set. They proved that their proposed approach could
improve the performance of cross-domain sentiment
classification.
The Stochastic Agreement Regularization algorithm deals
with cross-domain polarity classification [111]. It is a probabilistic
agreement framework based on minimizing the Bhattacharyya
distance between models trained using two different
views. It regularizes the models from each view by constraining
the amount by which it allows them to disagree on unlabeled
instances from a theoretical model. The Stochastic Agreement
Regularization algorithm was used as a base for the work presented
by Lambova et al. [24] which discussed the problem of
cross-domain text subjectivity classification. They proposed
three new algorithms based on multi-view learning and the
co-training algorithm strategy constrained by agreement
[112]. They worked on movie reviews and question answering
data that came from three famous data sets. They showed that
their proposed work give improved results compared to the
Stochastic Agreement Regularization algorithm.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

5.2. xây dựng tài nguyênXây dựng tài nguyên (BR) nhằm mục đích tạo lexica, từ điểnvà corpora trong ý kiến mà biểu hiện được chú thíchtheo phân cực của họ. Xây dựng tài nguyên không phải là một nhiệm vụ SA,nhưng nó có thể giúp cải thiện SA và ED là tốt. Chínhnhững thách thức phải đối mặt với các công việc trong thể loại nàymơ hồ của từ, multilinguality, độ chi tiết và cácsự khác biệt trong quan điểm biểu hiện trong văn bản thể loại [11].Xây dựng Lexicon đã được trình bày bởi Tan và Wu [20]. Ởcông việc của họ, họ đề xuất một thuật toán ngẫu nhiên đi để xây dựngtên miền theo định hướng tình cảm lexicon bởi cùng một lúcsử dụng tình cảm từ và các tài liệu từ cả hai tuổitên miền và mục tiêu tên miền. Họ tiến hành thí nghiệm của họtrên ba bộ dữ liệu tình cảm dành riêng cho tên miền. Thử nghiệm của họkết quả chỉ ra rằng các thuật toán của họ đề xuất cải tiếnhiệu suất của tự động xây dựng theo định hướng tên miềnlexicon tình cảm.Xây dựng corpus đã được giới thiệu bởi Robaldo và Di Caro[34]. họ đề xuất ý kiến khai thác mỏ-ML, một mới dựa trên XMLCác hình thức cho gắn thẻ văn bản biểu thức truyền đạt ý kiếntrên các đối tượng được coi là có liên quan trong bang giao.Nó là một tiêu chuẩn mới bên cạnh cảm xúc-ML và WordNet. Của họcông việc bao gồm hai phần. Trước tiên, họ trình bày một tiêu chuẩnphương pháp cho các chú thích của trầm phát biểu trong cácvăn bản được hoàn toàn độc lập từ bất kỳ ứng dụng tên miền.Thứ hai, họ coi là thích ứng cụ thể tên miền màDựa trên việc sử dụng các ontology hỗ trợ đó là domaindependent.Họ bắt đầu với tập dữ liệu của nhà hàng nhận xétáp dụng truy vấn theo định hướng khai thác quá trình. Họ đánh giáđề nghị của họ bằng phương tiện của các phân tích chi tiết của sự bất đồnggiữa khác nhau annotators. Kết quả của họ chỉ ra rằngđề nghị của họ đại diện cho một chương trình chú thích hiệu quả có thể bao gồm cao phức tạp trong khi bảo quản tốtthỏa thuận trong số những người khác nhau.Boldrini et al. [41] đã tập trung vào việc tạo ra các EmotiBlog,một chương trình hạt mịn chú thích cho ghi nhãn chủ quantrong thể loại văn bản phi truyền thống. Họ tập trung vào các chú thíchở các cấp độ khác nhau: tài liệu, câu và yếu tố. Họcũng trình bày các văn thể EmotiBlog; một tập hợp các bài đăng trên blogsáng tác bởi 270.000 token khoảng ba chủ đề trong 3ngôn ngữ: tiếng Anh, tiếng Tây Ban Nha và tiếng ý. Họ kiểm tra cácmạnh mẽ của các mô hình và tính ứng dụng của nó để NLP công việc.Họ thử nghiệm mô hình của họ trên nhiều corpora tức là ISEAR. Của họthí nghiệm cung cấp kết quả khả quan. Họ áp dụngEmotiBlog tình cảm phân cực phân loại và cảm xúcphát hiện. Họ đã chứng minh rằng nguồn lực của họ được cải thiện cáchiệu suất của hệ thống được xây dựng cho nhiệm vụ này.Xây dựng từ điển đã được trình bày bởi Steinberger et al. [43].Trong công việc của họ, họ đề xuất một phương pháp tiếp cận bán tự động đểtạo ra tình cảm từ điển bằng nhiều ngôn ngữ. Họ đầu tiênsản xuất cao cấp tiêu chuẩn vàng tình cảm từ điển nhấthai ngôn ngữ và sau đó dịch chúng tự động vào mộtngôn ngữ thứ ba. Những từ có thể được tìm thấy trong cả hai mục tiêungôn ngữ từ danh sách có khả năng được hữu ích vì các từgiác quan có khả năng được tương tự như hai nguồnngôn ngữ. Họ giải quyết hai vấn đề trong công việc của họ; Cácbiến tố hình thái học và chủ quan tham gia vào cácnỗ lực của con người chú thích và đánh giá. Họ làm việc trêndữ liệu tin tức. Họ so sánh với danh sách triangulated của họ với cácPhòng Không triangulated máy-dịch từ danh sách và xác minhcách tiếp cận của họ.5.3. chuyển giao học tậpChuyển giao học tập chất chiết xuất từ kiến thức từ các tên miền phụ trợ đểcải thiện quá trình học tập trong một mục tiêu tên miền. Ví dụ,nó chuyển kiến thức từ các tài liệu Wikipedia tweets hoặcmột tìm kiếm bằng tiếng Anh để tiếng ả Rập. Chuyển giao học tập được coi là mộtmới qua miền học kỹ thuật như it địa chỉ cácCác khía cạnh khác nhau của tên miền khác nhau. Nó được sử dụng để nâng caonhiều văn bản khai thác nhiệm vụ giống như phân loại văn bản [107], tình cảmphân tích [108], tên thực thể công nhận [109], một phần của bài phát biểutagging [110],... vv.Trong phân tích tình cảm; chuyển giao học tập có thể được áp dụng chochuyển tình cảm phân loại từ một tên miền khác[21] hoặc xây dựng một cầu nối giữa hai tên miền [22]. Tan vàWang [21] đề xuất một thuật toán dựa trên dữ liệu ngẫu nhiên để chọn ratính năng tần số cao miền cụ thể (HFDS) cũng như mộtHệ số mô hình mà trọng các tính năng cũng nhưtrường hợp. Họ chỉ định một trọng lượng nhỏ hơn để HFDS tính năngvà một trọng lượng lớn hơn để các trường hợp có nhãn tương tự như cáctính năng liên quan đến trục. Họ đã làm việc về giáo dục, chứng khoán vàđánh giá máy tính đến từ Trung Quốc dành riêng cho tên miềntập hợp dữ liệu. Họ đã chứng minh rằng mô hình đề xuất của họ có thể vượt quaảnh hưởng bất lợi của tính năng HFDS. Họ cũngchỉ ra rằng mô hình của họ là một sự lựa chọn tốt hơn cho các ứng dụng SAđiều đó yêu cầu phân loại chính xác cao mà có hầu như khôngbất kỳ nhãn dữ liệu đào tạo.Ngô và Tan [22] đã đề xuất một khuôn khổ hai giai đoạn chophân loại tên miền chéo tình cảm. Trong giai đoạn đầu tiên họxây dựng một cầu nối giữa vùng nguồn và mục tiêuCác tên miền để nhận được một số đặt tự tin có nhãn văn bảnmục tiêu tên miền. Trong giai đoạn thứ hai họ khai thác cáccấu trúc nội tại, tiết lộ bởi các tài liệu có nhãn đểnhãn dữ liệu mục tiêu-tên miền. Họ làm việc trên sách, khách sạn,và máy tính xách tay giá mà đến từ một Trung Quốc dành riêng cho tên miềntập hợp dữ liệu. Họ đã chứng minh rằng cách tiếp cận được đề xuất của họ có thểcải thiện hiệu suất của cross-miền tình cảmphân loại.Giao dịch thuật toán ngẫu nhiên thỏa thuận Regularizationvới cross-miền cực các phân loại [111]. Nó là một xác suấtHiệp định khung dựa trên việc giảm thiểu Bhattacharyyakhoảng cách giữa các mô hình đào tạo bằng cách sử dụng hai khác nhauSố lần xem. Nó regularizes các mô hình từ xem mỗi bởi constrainingsố tiền mà nó cho phép họ không đồng ý về ổtrường hợp từ một mô hình lý thuyết. Hiệp định ngẫu nhiênRegularization thuật toán được sử dụng như một cơ sở cho việc trình bàybởi Lambova et al. [24] mà thảo luận về vấn đề củavăn bản Cross-miền phân loại chủ quan. Họ đề xuấtba các thuật toán mới dựa trên đa xem học tập và cáchợp tác đào tạo thuật toán chiến lược ràng buộc bởi thỏa thuận[112]. họ đã làm việc trên phim đánh giá và trả lời các câu hỏidữ liệu đến từ ba bộ dữ liệu nổi tiếng. Họ đã chỉ ra rằngcông việc của họ được đề xuất cho kết quả cải thiện so với cácNgẫu nhiên thỏa thuận Regularization thuật toán.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

5.2. Xây dựng nguồn lực
xây dựng lực (BR) nhằm mục đích tạo lexica, từ điển
và corpora trong đó biểu thức quan điểm được chú thích
theo phân cực. Xây dựng nguồn lực không phải là một nhiệm vụ SA,
nhưng nó có thể giúp cải thiện SA và ED là tốt. Các chính
những thách thức mà đối đầu với công việc trong thể loại này là
sự mơ hồ của từ, multilinguality, granularity và
khác biệt về biểu ý kiến trong các thể loại văn bản [11].
Building Lexicon đã được trình bày bởi Tân và Wu [20]. Trong
công việc của họ, họ đề xuất một thuật toán ngẫu nhiên đi bộ để xây dựng
miền theo định hướng tình cảm từ vựng bằng cách đồng thời
sử dụng những lời tình cảm và tài liệu từ cả cũ
miền tên miền và mục tiêu. Họ đã tiến hành các thí nghiệm của họ
về ba bộ dữ liệu tâm lý tên miền cụ thể. Thí nghiệm của các
kết quả chỉ ra rằng thuật toán đề xuất của họ được cải thiện
hiệu suất của cấu trúc tự động miền theo định hướng
tình cảm từ vựng.
Xây dựng corpus đã được giới thiệu bởi Robaldo và Di Caro
[34]. Họ đề xuất ý kiến Mining-ML, một mới dựa trên XML
thức cho việc gắn thẻ biểu thức văn bản truyền đạt ý kiến
trên các đối tượng được coi là có liên quan trong trạng thái của công việc.
Nó là một tiêu chuẩn mới bên cạnh Emotion-ML và WordNet. Họ
làm việc bao gồm hai phần. Đầu tiên, họ trình bày một tiêu chuẩn
phương pháp luận cho các chú thích trên các báo cáo về tình cảm trong
văn bản đó là đúng độc lập với các miền ứng dụng.
Thứ hai, họ được coi là thích ứng tên miền cụ thể mà
dựa vào việc sử dụng các bản thể học về hỗ trợ đó là domaindependent.
Họ bắt đầu với bộ dữ liệu đánh giá nhà hàng
áp dụng quy trình khai thác truy vấn theo định hướng. Họ đánh giá
đề xuất của họ bằng phương tiện phân tích hạt mịn của sự bất đồng
giữa annotators khác nhau. Kết quả của họ chỉ ra rằng
đề nghị của họ đại diện cho một chương trình ghi chú hiệu quả mà có thể bao gồm tính phức tạp cao, trong khi bảo quản tốt
thỏa thuận giữa những người khác nhau.
Boldrini et al. [41] đã tập trung vào việc tạo ra các EmotiBlog,
một chương trình chú thích hạt mịn cho nhãn chủ quan
trong các thể loại văn bản phi truyền thống. Họ tập trung vào các chú thích
ở các cấp độ khác nhau: tài liệu, câu và thành phần. Họ
cũng trình bày các corpus EmotiBlog; một bộ sưu tập các bài đăng trên blog
sáng tác bởi 270.000 thẻ về ba chủ đề trong ba
ngôn ngữ: tiếng Tây Ban Nha, tiếng Anh và tiếng Ý. Họ đã kiểm tra
độ mạnh của mô hình và ứng dụng của nó với nhiệm vụ NLP.
Họ đã thử nghiệm mô hình của họ trên nhiều corpora tức ISEAR. Họ
thí nghiệm cung cấp kết quả khả quan. Họ áp dụng
EmotiBlog để phân loại tình cảm và cảm xúc cực
phát hiện. Họ đã chứng minh rằng tài nguyên của họ cải thiện
hiệu suất của hệ thống được xây dựng cho công việc này.
Xây dựng từ điển đã được trình bày bởi Steinberger et al. [43].
Trong công việc của họ, họ đề xuất một phương pháp bán tự động để
tạo ra các từ điển tình cảm trong nhiều ngôn ngữ. Họ lần đầu tiên
được sản xuất cao cấp từ điển tâm lý tiêu chuẩn vàng cho
hai ngôn ngữ và sau đó được dịch một cách tự động vào một
ngôn ngữ thứ ba. Những lời nói đó có thể được tìm thấy trong cả hai mục tiêu
danh sách từ ngữ có thể sẽ hữu ích bởi vì họ từ
các giác quan có thể sẽ là tương tự như của hai nguồn
ngôn ngữ. Họ giải quyết hai vấn đề trong công việc của họ; sự
uốn hình thái và tính chủ quan tham gia vào các
nỗ lực chú thích và đánh giá con người. Họ đã làm việc trên
dữ liệu tin tức. Họ so sánh danh sách tam giác của họ với các
danh sách từ máy dịch không phải hình tam giác và xác nhận
phương pháp tiếp cận của họ.
5.3. Chuyển học
Chuyển chiết xuất học tập kiến thức từ miền phụ để
cải thiện quá trình học tập trong một lĩnh vực nhất định. Ví dụ,
nó chuyển kiến thức từ các tài liệu Wikipedia để tweets hoặc
một tìm kiếm bằng tiếng Anh sang tiếng Ả Rập. Chuyển học được xem là một
kỹ thuật học tập miền mới qua vì nó đề cập đến các
khía cạnh khác nhau của sự khác biệt miền. Nó được sử dụng để tăng cường
nhiều nhiệm vụ khai thác văn bản như phân loại văn bản [107], tâm lý
phân tích [108], Named Entity nhận [109], part-of-speech
tagging [110], ... vv
Trong Sentiment Analysis; học tập chuyển giao có thể được áp dụng để
chuyển phân loại tình cảm từ một tên miền khác
[21] hoặc xây dựng một cây cầu giữa hai lĩnh vực [22]. Tân và
Wang [21] đề xuất một thuật toán dựa trên Entropy để chọn ra
tần số cao miền cụ thể (HFDS) tính năng cũng như một
mô hình trọng mà trọng các tính năng cũng như các
trường hợp. Họ được giao một trọng lượng nhỏ hơn để các tính năng HFDS
và một trọng lượng lớn hơn để các trường hợp với các nhãn tương tự như
tính năng pivot tham gia. Họ đã làm việc về giáo dục, chứng khoán và
máy tính nhận xét rằng đến từ một người Trung Quốc tên miền cụ thể
tập hợp dữ liệu. Họ đã chứng minh rằng mô hình đề xuất của họ có thể vượt qua
những ảnh hưởng bất lợi của tính năng HFDS. Họ cũng
cho thấy mô hình của họ là một sự lựa chọn tốt hơn cho các ứng dụng SA
đòi hỏi phân loại chính xác cao mà hầu như không có
bất kỳ dữ liệu đào tạo nhãn.
Wu và Tân [22] đã đề xuất một khuôn khổ hai giai đoạn cho
cross-domain phân loại tình cảm. Trong giai đoạn đầu tiên họ
xây dựng một cầu nối giữa các vùng nguồn và mục tiêu
miền để có được một số tài liệu một cách tự tin nhất nhãn trong
phạm vi mục tiêu. Trong giai đoạn thứ hai họ khai thác các
cấu trúc nội tại, tiết lộ của các tài liệu này được dán nhãn để
dán nhãn cho các dữ liệu mục tiêu-domain. Họ đã làm việc trên sổ sách, khách sạn,
và đánh giá máy tính xách tay đến từ một người Trung Quốc tên miền cụ thể
tập hợp dữ liệu. Họ đã chứng minh rằng phương pháp tiếp cận đề xuất của họ có thể
cải thiện hiệu suất của tình cảm cross-domain
phân loại.
Các giao dịch thuật toán Stochastic Hiệp định Hợp thức
với cross-domain cực phân loại [111]. Đó là một xác suất
khuôn khổ thỏa thuận dựa vào việc giảm thiểu các Bhattacharyya
khoảng cách giữa các mô hình đào tạo khác nhau bằng cách sử dụng hai
quan điểm. Nó regularizes các mô hình từ mỗi điểm hạn chế bởi
số tiền mà nó cho phép họ không đồng ý về dán nhãn
các trường hợp từ một mô hình lý thuyết. Stochastic Hiệp định
Hợp thức thuật toán được sử dụng như một cơ sở cho công việc trình bày
bởi Lambova et al. [24] mà thảo luận các vấn đề của
cross-domain phân loại chủ văn bản. Họ đã đề xuất
ba thuật toán mới dựa trên multi-view học tập và các
chiến lược thuật toán đồng đào tạo hạn chế bởi thỏa thuận
[112]. Họ đã làm việc trên đánh giá bộ phim và câu hỏi trả lời
rằng dữ liệu đến từ ba bộ dữ liệu nổi tiếng. Họ đã chỉ ra rằng
việc đề xuất của họ cho kết quả cải thiện so với các
thuật toán Stochastic Hiệp định Hợp thức.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.