Các chú thích được thu thập ở cấp dòng, với
chú thích riêng biệt cho mỗi sáu cảm xúc. Chúng tôi
thu thập các chú thích số sử dụng thang giữa
0 và 10, với 0 tương ứng với sự vắng mặt của một
cảm xúc, và 10 tương ứng với cường độ cao nhất.
Mỗi HIT (tức là, phiên chú thích) chứa
toàn bộ bài hát, với một số dòng khác nhau, từ 14
. 110, với giá trung bình của 50 dòng mỗi bài hát
The annotators được hướng dẫn để: (1) Điểm các
cảm xúc từ quan điểm người viết, không phải của riêng của họ
quan điểm; (2) Đọc và giải thích từng dòng trong bối cảnh;
ví dụ, họ được yêu cầu đọc và hiểu
toàn bộ bài hát trước khi sản xuất bất kỳ chú thích;
(3) Sản xuất sáu cảm xúc chú thích độc lập
với nhau, chiếm thực tế là một dòng
có thể chứa không có, một, hoặc nhiều cảm xúc. Trong
Ngoài các bài hát, bài hát cũng đã có sẵn
trực tuyến, vì vậy họ có thể nghe nó trong trường hợp họ
không quen thuộc với nó. Các annotators cũng đã được đưa ra
ba ví dụ khác để minh họa các chú thích.
Trong khi việc sử dụng crowdsourcing cho dữ liệu chú thích
có thể dẫn đến một số lượng lớn các chú thích trong
một khoảng thời gian rất ngắn, nó cũng có nhược điểm
của spam tiềm năng mà có thể cản trở
sự chất lượng của các chú thích. Để giải quyết các khía cạnh này,
chúng tôi sử dụng hai kỹ thuật khác nhau để ngăn chặn thư rác.
Đầu tiên, trong mỗi bài hát, chúng tôi đưa vào một "trạm kiểm soát" tại một
vị trí ngẫu nhiên trong bài hát - một dòng giả mà đọc
". Vui lòng nhập 7 cho mỗi sáu cảm xúc" những
annotators người không làm theo hướng dẫn cụ thể này
đã được coi là kẻ gửi thư rác đã sản xuất ra các chú thích
mà không đọc nội dung của bài hát, và
do đó loại bỏ. Thứ hai, đối với mỗi chú giải còn lại,
chúng tôi tính toán tương quan Pearson giữa
điểm số cảm xúc của mình và điểm số cảm xúc trung bình
của tất cả các annotators khác. Những annotators với một
mối tương quan với mức trung bình của annotators khác
dưới 0,4 cũng đã được gỡ bỏ, do đó chỉ để lại
annotators đáng tin cậy trong hồ bơi.
đang được dịch, vui lòng đợi..
