Bảng 2. Lời nhận tỷ lệ cho các cơ sở dữ liệu nghe nhìn liên tục (theo%)
Lời lãi nhận cho cơ sở dữ liệu nghe nhìn chữ số và nghe nhìn liên tục
cơ sở dữ liệu, sử dụng mô hình MS-ADBN và mô hình MM-ADBN, tương ứng, được đưa ra trong Bảng 1
và Bảng 2. Vì lợi ích của so sánh, tỷ lệ nhận lời thu được từ HMM, SS-
MSHMM, SA-MSHMM, model WP-DBN và mô hình WPS-DBN cũng được đưa ra.
Nó có thể được thông báo từ Bảng 1 và Bảng 2 mà :
a. Đối với nhận dạng giọng nói chỉ có âm thanh trên chữ số cơ sở dữ liệu nghe nhìn, dưới sạch hoặc
các điều kiện tương đối sạch với SNRs là 20dB và 30dB, tỷ lệ nhận dạng giọng nói của
model WP-DBN là thấp hơn so với triphone HMM. Nhưng mức công nhận dưới
20dB thấy WP-DBN là mạnh mẽ hơn với môi trường ồn ào. Ngoài ra, để
nhận dạng giọng nói với các tính năng trực quan trên cơ sở dữ liệu chữ số nghe nhìn, WP-DBN mô hình
thực hiện tốt hơn một chút so với triphone HMM. Một lý do có thể là mô hình DBN
mô tả tốt hơn sự tiến hóa theo thời gian năng động của quá trình bài phát biểu. Trong khi WPS-
DBN mô hình có hiệu suất tồi tệ hơn triphone HMM, một lý do có thể là WPS-DBN mô hình sử dụng mô hình Gaussian đơn, triphone HMM sử dụng Multi-Gaussian
mô hình hỗn hợp. Đối với chỉ có âm thanh hoặc video chỉ nhận dạng giọng nói trên liên tục audio-
cơ sở dữ liệu trực quan, WPS-DBN mô hình làm tốt hơn so với triphone HMM tại SNRs khác nhau.
B. Do tích hợp các tính năng trực quan và các tính năng âm thanh, các mô hình đa luồng có
hiệu suất tốt hơn so với mô hình tương ứng với dòng duy nhất. Đối với chữ số nghe nhìn
cơ sở dữ liệu, trong môi trường ồn ào với tín hiệu để tỷ lệ tiếng ồn khác nhau, từ 0dB đến
30dB, so sánh với HMM, WP-DBN và mô hình WPS-DBN, trung bình
cải tiến 6,03%, 8,67% và 7,34% thu được trong tỷ lệ nhận dạng giọng nói từ
SA-MSHMM, MS-ADBN và mô hình MM-ADBN tương ứng. Cũng như cho liên tục
cơ sở dữ liệu nghe nhìn, trong bài phát biểu trong sạch, những cải tiến của 5,61%, 7,81% và 0,42%
tương ứng.
C. Đối với chữ số cơ sở dữ liệu nghe nhìn, MS-ADBN mô hình có hiệu suất tốt hơn so với SS-
MSHMM và SA-MSHMM. Xu hướng này càng trở nên rõ ràng hơn với sự gia tăng
của tiếng ồn. Kể từ khi các lực lượng SA-MSHMM dòng âm thanh và dòng hình ảnh được
đồng bộ hóa với các ranh giới thời gian của điện thoại, trong khi mô hình MS-ADBN thua
những sự không đồng bộ của cả hai dòng để cấp độ từ, kết quả ghi nhận cho thấy những bằng chứng
rằng mô hình MS-ADBN mô tả hợp lý hơn không đồng bộ âm thanh hình ảnh trong
bài phát biểu. Cũng như cho các cơ sở dữ liệu nghe nhìn liên tục, MM-ADBN mô hình có
hiệu suất tốt hơn so với SA-MSHMM. Tại môi trường nói sạch sẽ, MM-ADBN mô hình
có cải thiện 9,97% so với SA-MSHMM tỷ lệ nhận dạng giọng nói.
D. Cần nhận thấy rằng trong mọi điều kiện tiếng ồn cho chữ số cơ sở dữ liệu nghe nhìn, các
mô hình MM-ADBN được mức công nhận tồi tệ hơn nhưng chấp nhận được so với MS-ADBN
mô hình, trong khi đối với cơ sở dữ liệu nghe nhìn liên tục, MM-ADBN mô hình làm tốt hơn so với
MS- mô hình ADBN tại SNRs khác nhau. Tại môi trường nói sạch sẽ, bài phát biểu
công nhận tỷ lệ của mô hình MS-ADBN là cao hơn so với MS-ADBN trong 35,91%
tỷ lệ nhận dạng giọng nói. Đây là những sự trùng hợp với kết quả nhận dạng giọng nói của
các đơn mô hình dòng WP-DBN và mô hình WPS-DBN trong (Lv et al. 2007). Kể từ MM-
ADBN mô hình và mô hình WPS-DBN là tất cả các mẫu điện thoại và thích hợp cho lớn
công nhận từ vựng tiếng nói. MS-ADBN mô hình và mô hình WP-DBN là tất cả từ
các mô hình, trong đó có thể không được đào tạo đúng cho cơ sở dữ liệu từ vựng lớn, và họ là
thích hợp cho nhỏ nhận vốn từ vựng tiếng nói, vì chúng có thể được đào tạo đúng.
đang được dịch, vui lòng đợi..
