Since both human speech production and perception are bimodal in natur dịch - Since both human speech production and perception are bimodal in natur Việt làm thế nào để nói

Since both human speech production

Since both human speech production and perception are bimodal in nature (Potamianos et
al, 2003), visual speech information from the speaker’s mouth has been successfully shown
to improve noisy robustness of automatic speech recognizers (Dupont & Luettin 2000;
Gravier et al, 2002). There are two main challenging problems in the reported Audio-Visual
Speech Recognition (AVSR) systems (Nefian et al, 2002; Gravier et al, 2002): First, the design
of the visual front end, i.e. how to obtain the more static visual speech feature; second, how
to build a audio-visual fusion model that describes the inherent correlation and asynchrony
of audio and visual speech. In this paper, we concentrate on the latter issue.
Previous works on combining multiple features can be divided into three categories: feature
fusion, decision fusion and model fusion. Model fusion seems to be the best technique to
integrate information from two or more streams. However, the experiments results of many
AVSR systems show that although the visual activity and audio signal are correlative, but
they are not synchronous, the visual activity often precedes the audio signal about 120ms
(Gravier et al, 2002; Potamianos et al, 2003) . Each AVSR system should take the asynchrony
into account.
0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
Kể từ khi cả hai bài phát biểu của con người sản xuất và nhận thức được bimodal trong tự nhiên (Potamianos et Al, 2003), bài phát biểu thị giác thông tin từ người nói miệng đã được thể hiện thành công để cải thiện mạnh mẽ ồn ào của bài phát biểu tự động recognizers (Dupont & Luettin 2000; Gravier CTV, 2002). Có hai vấn đề chính khó khăn trong việc nghe báo cáo Bài phát biểu công nhận (AVSR) hệ thống (Nefian và ctv, 2002; Gravier và ctv, 2002): đầu tiên, thiết kế của kết thúc trước trực quan, tức là làm thế nào để có được các tính năng trực quan phát biểu thêm tĩnh; Thứ hai, làm thế nào để xây dựng một mô hình âm tổng hợp mô tả sự tương quan cố hữu và asynchrony ngôn luận âm thanh và thị giác. Trong bài báo này, chúng tôi tập trung vào các vấn đề sau này. Các công trình trước ngày kết hợp nhiều tính năng có thể được chia thành ba loại: tính năng Fusion, quyết định kết hợp và mô hình tổng hợp. Mô hình kết hợp dường như là kỹ thuật tốt nhất để tích hợp thông tin từ hai hay nhiều dòng suối. Tuy nhiên, kết quả thí nghiệm của nhiều người AVSR hệ thống cho thấy rằng mặc dù các hoạt động trực quan và các tín hiệu âm thanh là các, nhưng họ không phải đồng bộ, các hoạt động trực quan thường xuyên đến trước tín hiệu âm thanh về 120ms (Gặp et al, năm 2002; Potamianos et al, 2003). Mỗi hệ thống AVSR nên dùng asynchrony vào tài khoản.
đang được dịch, vui lòng đợi..
Kết quả (Việt) 2:[Sao chép]
Sao chép!
Kể từ khi cả hai sản xuất của con người nói và nhận thức là hai mốt trong tự nhiên (Potamianos et
al, 2003), thông tin ngôn luận thị giác từ miệng của người nói đã được chứng minh là thành công
để cải thiện mạnh mẽ ồn ào của recognizers giọng nói tự động (Dupont & Luettin 2000;
Gravier et al, 2002) . Có hai vấn đề thách thức chính trong Audio-Visual báo
hệ thống nhận dạng giọng nói (AVSR) (Nefian et al, 2002; Gravier et al, 2002): Đầu tiên, các thiết kế
của kết thúc trước thị giác, tức là làm thế nào để có được sự tĩnh hơn thị giác tính năng lời nói; thứ hai, làm thế nào
để xây dựng một mô hình hợp nghe nhìn mô tả mối tương quan vốn có và sự không đồng bộ
của lời nói âm thanh và hình ảnh. Trong bài báo này, chúng tôi tập trung vào các vấn đề sau.
Các công trình trước đây về cách kết hợp nhiều tính năng có thể được chia thành ba loại: Tính năng
phản ứng tổng hợp, quyết định phản ứng tổng hợp và mô hình hợp nhất. Mô hình hợp nhất có vẻ là kỹ thuật tốt nhất để
tích hợp thông tin từ hai hay nhiều dòng. Tuy nhiên, các thí nghiệm kết quả của nhiều
hệ thống AVSR cho thấy mặc dù các hoạt động trực quan và tín hiệu âm thanh là tương ứng, nhưng
họ không đồng bộ, các hoạt động thị giác thường đi trước các tín hiệu âm thanh khoảng 120ms
(Gravier et al, 2002; Potamianos et al, 2003) . Mỗi hệ thống AVSR nên lấy không đồng
vào tài khoản.
đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2025 I Love Translation. All reserved.

E-mail: