Chương này đề cập đến các vấn đề về cơ cấu lại các dữ liệu âm thanh về loa, tức là,
việc tìm kiếm các vùng trong dòng suối âm thanh mà thuộc về một loa đơn duy nhất và sau đó tham gia vào
từng khu vực của người nói với nhau. Các nhiệm vụ tổ chức các dữ liệu âm thanh theo cách này
được gọi là loa diarization và lần đầu tiên được giới thiệu trong dự án NIST của Rich
Transcription trong "Ai đã nói khi" đánh giá (Fiscus et al, 2004;. Tranter & Reynolds,
2006). Các vấn đề loa diarization gồm nhiều giai đoạn, trong đó ba
nhiệm vụ chính được thực hiện: phát hiện lời nói, phát hiện speaker- và nền thay đổi,
và loa clustering. Trong khi mục tiêu của phát hiện ngôn luận và speaker- và phân đoạn acoustic
thủ tục là cung cấp cho các phân khúc thích hợp của các dòng dữ liệu âm thanh,
mục đích của các phân nhóm loa là để tham gia hoặc kết nối với nhau đoạn thuộc
các loa cùng, và điều này là thường được áp dụng trong giai đoạn cuối cùng của loa diarization
quá trình. Trong chương này, chúng tôi tập trung vào các phương pháp loa-clustering, tập trung vào
phát triển các cơ quan đại diện thích hợp của phân khúc loa cho clustering, và nghiên cứu
các biện pháp tương tự khác nhau để gia nhập phân khúc loa và khám phá khác nhau
tiêu chí dừng chân của các phân nhóm mà kết quả trong một giảm thiểu các diarization tổng thể
lỗi của hệ thống như vậy.
đang được dịch, vui lòng đợi..