(O'Shaughnessy & Tolba, 1999) mô hình âm vị dựa trên chia của bài phát biểu vào một tập hợp con của
mô hình lên tiếng và phát âm không được sử dụng và phân chia này để hạn chế việc tìm kiếm Viterbi trong
công nhận. Hiệu quả của việc phân chia như vậy của các mô hình chính nó đã không được trình bày. Trong (Jančovič &
Ming, 2002) là một mô hình HMM được ước tính chỉ dựa trên khung năng lượng cao, trong đó
có hiệu quả tương ứng với các bài phát biểu lên tiếng. Điều này đã được quan sát thấy để cải thiện hiệu suất
trong điều kiện ồn ào. Việc đưa thông tin lên tiếng, chúng tôi trình bày ở đây khác
từ các công trình nêu trên trong những điều sau đây: i) các thông tin bày tỏ việc làm được ước tính bằng
một phương pháp mới có thể cung cấp thông tin này cho mỗi kênh lọc ngân hàng, trong khi
đòi hỏi không có thông tin về F0; ii) thì giọng nói-thông tin được kết hợp trong một
hệ thống thống kê HMM-trụ sở tại phía sau của hệ thống ASR; iii) đánh giá được
thực hiện trên nhận dạng giọng nói ồn ào. Trong mô hình đề xuất, có HMMs đào tạo,
với mỗi hỗn hợp ở mỗi tiểu bang HMM được kết hợp một lồng tiếng xác suất, đó là ước tính
của một thủ tục đào tạo Viterbi phong cách riêng biệt (mà không thay đổi HMMs được đào tạo). Việc
kết hợp thì giọng nói xác suất phục vụ như là một quả phạt đền trong sự công nhận cho những
hỗn hợp / tiểu bang có thông tin bày tỏ không tương ứng với các thông tin lồng tiếng
của các tín hiệu. Việc đưa thông tin lên tiếng được đánh giá trong một mô hình chuẩn
và trong một mô hình còn thiếu tính năng để đã bù đắp cho sự ảnh hưởng của tiếng ồn. Các thí nghiệm
được thực hiện trên cơ sở dữ liệu Aurora 2. Kết quả thử nghiệm cho thấy đáng kể
cải thiện hiệu suất công nhận trong điều kiện ồn ào mạnh thu được từ các
mô hình kết hợp các thông tin bày tỏ.
đang được dịch, vui lòng đợi..