Cách tiếp cận BIC cơ bản: (mô tả trong phần 2.2)
các dữ liệu âm thanh đã được đại diện bởi các tính năng MFCC, mà được sáng tác đầu tiên
12 hệ số Cepstral (không có hệ số 0) và một năng lượng ngắn hạn với sự
bổ sung các tính năng ΔMFCC. Các tính năng ΔMFCC được tính toán bằng cách ước lượng
các hệ số hồi quy bậc nhất từ các tính năng MFCC tĩnh. Các tính năng đã được
bắt nguồn từ các tín hiệu âm thanh mỗi 10 ms bằng cách sử dụng cửa sổ phân tích 32-ms, (Young et
al., 2004). Đối với các ước tính của các biện pháp ΔBIC từ phương trình (4) mỗi cụm được
mô phỏng bằng toàn hiệp phương sai phân phối Gaussian, và λ yếu tố hình phạt đã được thiết lập
để 3,0, được chọn theo hiệu suất phân nhóm tối ưu trên các
tập dữ liệu phát triển.
Cách tiếp cận này là được gọi là phương pháp tiếp cận clust_REF_BIC trong các thí nghiệm của chúng tôi.
• phương pháp UBM-MAP-CLR: (mô tả trong phần 2.3)
các dữ liệu âm thanh đã được đại diện bởi các tính năng như đã được sử dụng trong các cơ sở
cách tiếp cận BIC, nhưng với việc bổ sung thêm tính năng cong vênh (Pelecanos & Sridharan, 2001),
được thực hiện trên từng phân khúc riêng biệt. Tất cả các GMMs đã được xây dựng
từ 32 hỗn hợp Gaussian chéo-hiệp phương sai. Các UBM ước tính trực tiếp từ
các dữ liệu xử lý âm thanh bằng cách sử dụng các thuật toán cực đại hóa kỳ vọng
(Theodoridis & Koutroumbas, 2003). Không có mô hình giới có nguồn gốc riêng biệt đã được đào tạo.
Sự thích nghi của MAP (chỉ) các phương tiện UBM được thực hiện trên mỗi cụm để lấy được
GMMs theo cụm trường. Tiếp theo, các cụm, nơi số điểm CLR cao nhất trong phương trình (5)
. Đã đạt được sáp nhập tại mỗi bước của quá trình hợp nhất
cách tiếp cận này được gọi là phương pháp tiếp cận của chúng tôi clust_UBM_MAP_CLR trong
thí nghiệm.
• Phương pháp FUSION: (mô tả trong mục 3.1 3.2)
các phản ứng tổng hợp của cơ quan đại diện âm thanh và điệu tính được mô tả bởi phương trình (10). Các
đại diện âm thanh của file âm thanh đã được thực hiện bởi các MFCC dựa trên cùng
các tính năng như đã được sử dụng trong phương pháp trên. Các tính năng điệu tính đã được bắt nguồn ở
mọi phân khúc loa và không được thay đổi trong các phân nhóm. Khi kết hợp
các biện pháp ΔBIC từ phương trình (8) và các biện pháp điệu tính từ phương trình (9) vào
tổng trọng (10), tham số trọng cần phải được thiết lập. Thông số này được
điều chỉnh trên các số liệu phát triển và đặt giá trị là 0,85. Điều này là phù hợp
với kỳ vọng của chúng tôi rằng thông tin phân biệt chính cho loa phân nhóm được
lưu trữ trong các âm thanh, trong khi thi pháp chỉ cung cấp thông tin bổ sung.
Lưu ý rằng chúng tôi sử dụng các yếu tố cùng một hình phạt, λ = 3,0, trong các biện pháp ΔBIC như đã được sử dụng trong các
phương pháp tiếp cận BIC đường cơ sở.
phương pháp này được gọi là phương pháp tiếp cận clust_FUSION trong các thí nghiệm của chúng tôi.
đang được dịch, vui lòng đợi..