Kể từ khi cả hai sản xuất của con người nói và nhận thức là hai mốt trong tự nhiên (Potamianos et
al, 2003), thông tin ngôn luận thị giác từ miệng của người nói đã được chứng minh là thành công
để cải thiện mạnh mẽ ồn ào của recognizers giọng nói tự động (Dupont & Luettin 2000;
Gravier et al, 2002) . Có hai vấn đề thách thức chính trong Audio-Visual báo
hệ thống nhận dạng giọng nói (AVSR) (Nefian et al, 2002; Gravier et al, 2002): Đầu tiên, các thiết kế
của kết thúc trước thị giác, tức là làm thế nào để có được sự tĩnh hơn thị giác tính năng lời nói; thứ hai, làm thế nào
để xây dựng một mô hình hợp nghe nhìn mô tả mối tương quan vốn có và sự không đồng bộ
của lời nói âm thanh và hình ảnh. Trong bài báo này, chúng tôi tập trung vào các vấn đề sau.
Các công trình trước đây về cách kết hợp nhiều tính năng có thể được chia thành ba loại: Tính năng
phản ứng tổng hợp, quyết định phản ứng tổng hợp và mô hình hợp nhất. Mô hình hợp nhất có vẻ là kỹ thuật tốt nhất để
tích hợp thông tin từ hai hay nhiều dòng. Tuy nhiên, các thí nghiệm kết quả của nhiều
hệ thống AVSR cho thấy mặc dù các hoạt động trực quan và tín hiệu âm thanh là tương ứng, nhưng
họ không đồng bộ, các hoạt động thị giác thường đi trước các tín hiệu âm thanh khoảng 120ms
(Gravier et al, 2002; Potamianos et al, 2003) . Mỗi hệ thống AVSR nên lấy không đồng
vào tài khoản.
đang được dịch, vui lòng đợi..
