Sung. 3. Kết quả Speaker-diarization trên cơ sở dữ liệu COST278 BN khi sử dụng các thủ tục phân nhóm khác nhau. Các giá trị DER thấp hơn tương ứng với một hiệu suất tốt hơn. Một kết luận thú vị có thể được rút ra từ việc quan sát độ phẳng của quỹ đạo DER. Kể từ khi các biện pháp đánh giá đề xuất nhằm tính toán các giá trị DER vào những con số tương đối của các cụm trong mỗi tập tin, không có tiêu chí dừng cần thiết để áp dụng; Tuy nhiên, trên thực tế dừng thích hợp của các phân nhóm phải được đảm bảo. Các tiêu chí dừng tối ưu nên kết thúc quá trình hợp nhất tại thời điểm với DER thấp nhất, mà phải trùng với điểm đánh giá 0, nơi mà số lượng cụm là bằng với số lượng loa thực tế trong các dữ liệu. Khoảng thời điểm này nó là tốt hơn cho các phương pháp tiếp cận để tạo quỹ đạo DER tương đối bằng phẳng, mà sẽ dẫn đến một sự mất mát nhỏ của loa diarization erformance, khi các tiêu chí dừng sẽ không tìm được vị trí chính xác để kết thúc quá trình sáp nhập. Trong trường hợp kết quả SiBN, quỹ đạo DER, được sản xuất bởi các phương pháp tiếp cận clust_FUSION, là phẳng hơn xung quanh các điểm đánh giá 0 so với quỹ đạo DER, được sản xuất bởi các clust_REF_BIC và cách tiếp cận clust_UBM_MAP_CLR.
Kết quả loa diarization trong hình 3 được sản xuất bằng cách chạy các phân nhóm thử nghiệm
phương pháp tiếp cận trên cơ sở dữ liệu COST278 BN. Các kết quả cho việc thực hiện phân nhóm tương tự của phương pháp tiếp cận như trong trường hợp dữ liệu SiBN, mặc dù các rối tổng thể là cao hơn trong trường hợp SiBN. Điều này đã được dự kiến, kể từ khi COST278 BN dữ liệu bao gồm nhiều diễn giả hơn trong môi trường âm thanh khác nhau hơn so với các dữ liệu SiBN, và do đó vấn đề phân nhóm là phức tạp hơn. Trong tình huống này, các phương pháp tiếp cận clust_FUSION sản xuất các kết quả loa diarization tổng thể tốt nhất, trong khi phương pháp clust_REF_BIC thực hiện tốt hơn một chút so với phương pháp clust_UBM_MAP_CLR. Điều này có nghĩa là trong trường hợp các điều kiện bất lợi acoustic nó là tốt hơn để mô hình dữ liệu cluster bằng cách thêm thông tin điệu tính để cơ quan đại diện cụm chứ không phải mô hình hóa chúng chỉ với đại diện âm (cách tiếp cận clust_REF_BIC) hoặc bởi một mô hình âm thanh chính xác hơn với các GMMs ( cách tiếp cận clust_UBM_MAP_CLR).
đang được dịch, vui lòng đợi..