5.2. Xây dựng nguồn lực
xây dựng lực (BR) nhằm mục đích tạo lexica, từ điển
và corpora trong đó biểu thức quan điểm được chú thích
theo phân cực. Xây dựng nguồn lực không phải là một nhiệm vụ SA,
nhưng nó có thể giúp cải thiện SA và ED là tốt. Các chính
những thách thức mà đối đầu với công việc trong thể loại này là
sự mơ hồ của từ, multilinguality, granularity và
khác biệt về biểu ý kiến trong các thể loại văn bản [11].
Building Lexicon đã được trình bày bởi Tân và Wu [20]. Trong
công việc của họ, họ đề xuất một thuật toán ngẫu nhiên đi bộ để xây dựng
miền theo định hướng tình cảm từ vựng bằng cách đồng thời
sử dụng những lời tình cảm và tài liệu từ cả cũ
miền tên miền và mục tiêu. Họ đã tiến hành các thí nghiệm của họ
về ba bộ dữ liệu tâm lý tên miền cụ thể. Thí nghiệm của các
kết quả chỉ ra rằng thuật toán đề xuất của họ được cải thiện
hiệu suất của cấu trúc tự động miền theo định hướng
tình cảm từ vựng.
Xây dựng corpus đã được giới thiệu bởi Robaldo và Di Caro
[34]. Họ đề xuất ý kiến Mining-ML, một mới dựa trên XML
thức cho việc gắn thẻ biểu thức văn bản truyền đạt ý kiến
trên các đối tượng được coi là có liên quan trong trạng thái của công việc.
Nó là một tiêu chuẩn mới bên cạnh Emotion-ML và WordNet. Họ
làm việc bao gồm hai phần. Đầu tiên, họ trình bày một tiêu chuẩn
phương pháp luận cho các chú thích trên các báo cáo về tình cảm trong
văn bản đó là đúng độc lập với các miền ứng dụng.
Thứ hai, họ được coi là thích ứng tên miền cụ thể mà
dựa vào việc sử dụng các bản thể học về hỗ trợ đó là domaindependent.
Họ bắt đầu với bộ dữ liệu đánh giá nhà hàng
áp dụng quy trình khai thác truy vấn theo định hướng. Họ đánh giá
đề xuất của họ bằng phương tiện phân tích hạt mịn của sự bất đồng
giữa annotators khác nhau. Kết quả của họ chỉ ra rằng
đề nghị của họ đại diện cho một chương trình ghi chú hiệu quả mà có thể bao gồm tính phức tạp cao, trong khi bảo quản tốt
thỏa thuận giữa những người khác nhau.
Boldrini et al. [41] đã tập trung vào việc tạo ra các EmotiBlog,
một chương trình chú thích hạt mịn cho nhãn chủ quan
trong các thể loại văn bản phi truyền thống. Họ tập trung vào các chú thích
ở các cấp độ khác nhau: tài liệu, câu và thành phần. Họ
cũng trình bày các corpus EmotiBlog; một bộ sưu tập các bài đăng trên blog
sáng tác bởi 270.000 thẻ về ba chủ đề trong ba
ngôn ngữ: tiếng Tây Ban Nha, tiếng Anh và tiếng Ý. Họ đã kiểm tra
độ mạnh của mô hình và ứng dụng của nó với nhiệm vụ NLP.
Họ đã thử nghiệm mô hình của họ trên nhiều corpora tức ISEAR. Họ
thí nghiệm cung cấp kết quả khả quan. Họ áp dụng
EmotiBlog để phân loại tình cảm và cảm xúc cực
phát hiện. Họ đã chứng minh rằng tài nguyên của họ cải thiện
hiệu suất của hệ thống được xây dựng cho công việc này.
Xây dựng từ điển đã được trình bày bởi Steinberger et al. [43].
Trong công việc của họ, họ đề xuất một phương pháp bán tự động để
tạo ra các từ điển tình cảm trong nhiều ngôn ngữ. Họ lần đầu tiên
được sản xuất cao cấp từ điển tâm lý tiêu chuẩn vàng cho
hai ngôn ngữ và sau đó được dịch một cách tự động vào một
ngôn ngữ thứ ba. Những lời nói đó có thể được tìm thấy trong cả hai mục tiêu
danh sách từ ngữ có thể sẽ hữu ích bởi vì họ từ
các giác quan có thể sẽ là tương tự như của hai nguồn
ngôn ngữ. Họ giải quyết hai vấn đề trong công việc của họ; sự
uốn hình thái và tính chủ quan tham gia vào các
nỗ lực chú thích và đánh giá con người. Họ đã làm việc trên
dữ liệu tin tức. Họ so sánh danh sách tam giác của họ với các
danh sách từ máy dịch không phải hình tam giác và xác nhận
phương pháp tiếp cận của họ.
5.3. Chuyển học
Chuyển chiết xuất học tập kiến thức từ miền phụ để
cải thiện quá trình học tập trong một lĩnh vực nhất định. Ví dụ,
nó chuyển kiến thức từ các tài liệu Wikipedia để tweets hoặc
một tìm kiếm bằng tiếng Anh sang tiếng Ả Rập. Chuyển học được xem là một
kỹ thuật học tập miền mới qua vì nó đề cập đến các
khía cạnh khác nhau của sự khác biệt miền. Nó được sử dụng để tăng cường
nhiều nhiệm vụ khai thác văn bản như phân loại văn bản [107], tâm lý
phân tích [108], Named Entity nhận [109], part-of-speech
tagging [110], ... vv
Trong Sentiment Analysis; học tập chuyển giao có thể được áp dụng để
chuyển phân loại tình cảm từ một tên miền khác
[21] hoặc xây dựng một cây cầu giữa hai lĩnh vực [22]. Tân và
Wang [21] đề xuất một thuật toán dựa trên Entropy để chọn ra
tần số cao miền cụ thể (HFDS) tính năng cũng như một
mô hình trọng mà trọng các tính năng cũng như các
trường hợp. Họ được giao một trọng lượng nhỏ hơn để các tính năng HFDS
và một trọng lượng lớn hơn để các trường hợp với các nhãn tương tự như
tính năng pivot tham gia. Họ đã làm việc về giáo dục, chứng khoán và
máy tính nhận xét rằng đến từ một người Trung Quốc tên miền cụ thể
tập hợp dữ liệu. Họ đã chứng minh rằng mô hình đề xuất của họ có thể vượt qua
những ảnh hưởng bất lợi của tính năng HFDS. Họ cũng
cho thấy mô hình của họ là một sự lựa chọn tốt hơn cho các ứng dụng SA
đòi hỏi phân loại chính xác cao mà hầu như không có
bất kỳ dữ liệu đào tạo nhãn.
Wu và Tân [22] đã đề xuất một khuôn khổ hai giai đoạn cho
cross-domain phân loại tình cảm. Trong giai đoạn đầu tiên họ
xây dựng một cầu nối giữa các vùng nguồn và mục tiêu
miền để có được một số tài liệu một cách tự tin nhất nhãn trong
phạm vi mục tiêu. Trong giai đoạn thứ hai họ khai thác các
cấu trúc nội tại, tiết lộ của các tài liệu này được dán nhãn để
dán nhãn cho các dữ liệu mục tiêu-domain. Họ đã làm việc trên sổ sách, khách sạn,
và đánh giá máy tính xách tay đến từ một người Trung Quốc tên miền cụ thể
tập hợp dữ liệu. Họ đã chứng minh rằng phương pháp tiếp cận đề xuất của họ có thể
cải thiện hiệu suất của tình cảm cross-domain
phân loại.
Các giao dịch thuật toán Stochastic Hiệp định Hợp thức
với cross-domain cực phân loại [111]. Đó là một xác suất
khuôn khổ thỏa thuận dựa vào việc giảm thiểu các Bhattacharyya
khoảng cách giữa các mô hình đào tạo khác nhau bằng cách sử dụng hai
quan điểm. Nó regularizes các mô hình từ mỗi điểm hạn chế bởi
số tiền mà nó cho phép họ không đồng ý về dán nhãn
các trường hợp từ một mô hình lý thuyết. Stochastic Hiệp định
Hợp thức thuật toán được sử dụng như một cơ sở cho công việc trình bày
bởi Lambova et al. [24] mà thảo luận các vấn đề của
cross-domain phân loại chủ văn bản. Họ đã đề xuất
ba thuật toán mới dựa trên multi-view học tập và các
chiến lược thuật toán đồng đào tạo hạn chế bởi thỏa thuận
[112]. Họ đã làm việc trên đánh giá bộ phim và câu hỏi trả lời
rằng dữ liệu đến từ ba bộ dữ liệu nổi tiếng. Họ đã chỉ ra rằng
việc đề xuất của họ cho kết quả cải thiện so với các
thuật toán Stochastic Hiệp định Hợp thức.
đang được dịch, vui lòng đợi..
