5. thảo luậnTrong ngắn hạn, chúng tôi đã nhìn ba cụm loa cách tiếp cận. Việc đầu tiên là một phương pháp tiêu chuẩn bằng cách sử dụng một nguyên tắc kết cụm agglomerative dưới lên với BIC là như là một tiêu chí merging. Trong hệ thống thứ hai một cách tiếp cận khác được áp dụng, cũng sử dụng dưới lên clustering, nhưng đại diện của các cụm loa và merging các tiêu chí khác nhau. Trong cách tiếp cận này các cụm loa được mô hình bởi GMMs. Trong các thủ tục kết cụm trong quá trình merging model phổ quát nền được chuyển thành loa-cụm GMMs sử dụng kỹ thuật thích ứng đồ. Các tiêu chí merging trong trường hợp này là một tỷ lệ qua đăng nhập, khả năng (CLR). Một cách tiếp cận hoàn toàn mới đã được phát triển trong các phản ứng tổng hợp cụm loa hệ thống, nơi mà các phân đoạn loa được mô hình bởi đại diện âm thanh và prosodic. Ý tưởng là để ngoài ra mô hình của người nói đặc điểm prosodic và thêm chúng vào các thông tin cơ bản của âm thanh. Chúng tôi xây dựng 10 cơ bản tính năng prosodic bắt nguồn từ năng lượng của tín hiệu âm thanh, các ước tính khoảng sân đường nét, và khu vực unvoiced lồng tiếng được công nhận trong bài phát biểu, đại diện các đơn vị cơ bản bài phát biểu. Bằng cách thêm prosodic thông tin cho các tính năng âm thanh cơ bản đường cơ sở clustering thủ tục đã được thay đổi để làm việc với sự hợp nhất của đại diện cả hai. Chúng tôi thực hiện hai thí nghiệm đánh giá nơi tỷ lệ lỗi diarization tổng thể đã được sử dụng như là một biện pháp đánh giá đối với ba thử nghiệm phương pháp tiếp cận kết cụm. Thí nghiệm đã được thực hiện trên SiBN và cơ sở dữ liệu COST278 BN. Kết quả đánh giá cho thấy hiệu suất tốt hơn cho các hệ thống được kiểm tra trong trường hợp SiBN. Điều này là do thực tế là các dữ liệu SiBN bao gồm đồng nhất hơn các phân đoạn âm thanh so với các dữ liệu COST278, kết quả là một phương pháp tiếp cận hiệu suất tốt hơn cho tất cả các cụm khoảng 5%. Hơn nữa, nó đã được hiển thị mà loa clustering, nơi mà các phân đoạn được mô hình bởi đại diện Hội đồng quản trị theo định hướng loa (loa GMMs, tính năng prosodic), đã được ổn định hơn và đáng tin cậy hơn so với hệ thống cơ bản, nơi mà các phân đoạn được đại diện chỉ bằng âm thanh thông tin. Kết quả tổng thể tốt nhất đã đạt được với các hệ thống phản ứng tổng hợp, nơi các cụm tham gia tham gia các tính năng âm thanh và prosodic. Từ này nó có thể được kết luận rằng phương pháp tiếp cận tổng hợp được đề xuất nhằm cải thiện loa-diarizatio hiệu suất, đặc biệt là trong trường hợp xử lý dữ liệu BN, nơi mà các loabài phát biểu đặc điểm trên một BN Hiển thị không thay đổi đáng kể, nhưng của người nóiclustering dữ liệu có thể được thiên vị do môi trường âm thanh khác nhau hoặc nềnđiều kiện.
đang được dịch, vui lòng đợi..
