Phần thứ ba của chương trình bày một kết hợp của các quang phổ bày tỏ thông tin để
cải thiện mô hình tín hiệu tiếng nói. Đến nay, các thông tin lên tiếng phổ của bài phát biểu đã
được khai thác chủ yếu trong bối cảnh của mã hóa ngôn luận và nghiên cứu tổng hợp giọng nói. Trong
nghiên cứu nói / công nhận loa, các tác giả trong (Thomson & Chengalvarayan, 2002;
Ljolje, 2002;. Kitaoka et al, 2002; Zolnay et al, 2003;.. Graciarena et al, 2004) đã nghiên cứu việc sử dụng các biện pháp khác nhau để ước lượng sự bày tỏ cấp của toàn bộ một khung tiếng nói và
nối thêm các tính năng lồng tiếng vào các đại diện tính năng. Ngoài lồng tiếng cho
các tính năng, các thông tin về F0 được sử dụng trong (Ljolje, 2002; Kitaoka et al., 2002). Trong
(Thomson & Chengalvarayan, 2002), tác dụng của bao gồm các tính năng bày tỏ dưới
quy trình đào tạo khác nhau cũng đã được nghiên cứu. Các thí nghiệm trong các giấy tờ nêu trên được
thực hiện chỉ trên tín hiệu phát biểu không bị hỏng bởi một tiếng ồn bổ sung và khiêm tốn
cải tiến đã được báo cáo. Trong (Jackson et al., 2003), các thông tin nói lên được
tính bằng cách phân hủy tín hiệu tiếng nói vào dòng tuần hoàn và không tuần hoàn đồng thời
và nặng từ sự đóng góp của mỗi dòng trong việc công nhận. Phương pháp này đòi hỏi
thông tin về tần số cơ bản. Cải tiến đáng kể về ngôn luận ồn ào
công nhận trên cơ sở dữ liệu Aurora 2 kết nối chữ số đã được chứng minh, tuy nhiên, những
kết quả đã đạt được bằng cách sử dụng các F0 ước tính từ các bài phát biểu sạch. Các tác giả trong
đang được dịch, vui lòng đợi..