Những năm gần đây, nó đã là một chủ đề hoạt động nghiên cứu để áp dụng năng động mạng Bayes (DBN) nhận dạng tiếng nói (Bilmes, 2002; Murphy, 2002; Zweig, 1998). DBN mô hình là một thống kê Mô hình có thể đại diện cho các bộ sưu tập nhiều biến ngẫu nhiên khi họ tiến triển theo thời gian. Nó là thích hợp để mô tả các biến phức tạp và có điều kiện mối quan hệ giữa các biến, kể từ khi nó có thể tự động tìm hiểu các phân phối xác suất có điều kiện giữa các biến, với hiệu suất tốt hơn mở rộng. Bilmes, Zweig et al, sử dụng đơn dòng DBN Các mô hình từ bị cô lập và nhận dạng tiếng nói nhỏ từ vựng (Bilmes et al, 2001; LV et Al, năm 2007). Zhang YM đề xuất một mô hình DBN đa dòng cho nhận dạng giọng nói bằng kết hợp các tính năng âm thanh khác nhau (MFCC, PLP, RASTA) (trương et al, 2003), mặc dù các Mô hình mô tả asynchrony dòng suối âm thanh và thị giác bằng cách chia sẻ cùng một từ nút, trong khi trong thực tế, không có asynchrony cho các tính năng âm thanh khác nhau từ cùng một giọng nói. N. Gowdy mở rộng mô hình này cho nhận dạng giọng nói nghe nhìn (Gowdy et al, năm 2003), một sự cải tiến đã được thu được trong chữ chính xác, trong khi giữa nút chữ, và mỗi dòng không phải là hoàn toàn độc lập, làm ảnh hưởng đến asynchrony cả hai dòng suối để một số phạm vi. Bimes đề xuất một cấu trúc mô hình tổng hợp nhiều dòng asynchrony DBN (Bilmes & Bartels, 2005), trong mô hình này, từ quá trình chuyển đổi xác suất được xác định bởi các quá trình chuyển đổi của nhà nước và các vị trí nhà nước trong cả dòng suối âm thanh và hình ảnh dòng.
đang được dịch, vui lòng đợi..