Multi-Suối ẩn mô hình Markov (MSHMM) là một phương pháp phổ biến trong phạm vi nghe nhìn
khuôn khổ mô hình hợp nhất. Các MSHMM tuyến tính kết hợp các lớp đăng nhập các khả năng dựa trên
các quan sát chỉ có âm thanh và video chỉ ở một số giai đoạn có thể (chẳng hạn như nhà nước,
điện thoại và cộng sự). Vào đầu năm hầu hết trường hợp, các điểm đồng bộ của dòng âm thanh và hình ảnh là dòng suối
ở cấp tiểu bang HMM, và chúng tôi đặt tên là Nhà nước đồng bộ MSHMM (SS-MSHMM). Chịu
sự không đồng bộ của dòng âm thanh và hình ảnh vào tài khoản, các điểm đồng bộ nên được đưa
đến một mức độ thô hơn, chẳng hạn như điện thoại, âm tiết, hoặc cấp từ. Tuy nhiên, một mặt, cho trung
và lớn nhận dạng giọng nói từ vựng, bộ phận nhận dạng điện thoại phải được sử dụng; trên
Mặt khác, để thực hiện một cách dễ dàng, tác phẩm nổi tiếng trước đó thường sử dụng không đồng bộ của nhà nước
đa luồng HMM (SA-MSHMM) (Gravier, 2002; Nefian et al, 2002), và đồng bộ
các điểm được đưa đến ranh giới âm vị. Do giới hạn của biểu HMM
khả năng, một mô hình như vậy có thể được thực hiện như một HMM sản phẩm (PHMM), như minh họa trong hình.
1. Thông thường, SA-MSHMM bốn trạng thái HMM âm thanh và bốn video được đưa ra trong hình. 1 (a),
và HMM sản phẩm tương ứng của nó được đưa ra trong hình. 1 (b).
đang được dịch, vui lòng đợi..