Nhiệm vụ nhận dạng giọng nói là loa độc lập đọc các câu đầy đủ được ghiqua đường dây điện thoại cố định. Cross-word triphone mô hình đã được huấn luyện bằng cách sử dụng 39 giờ, kể từ3838 loa. Việc phát triển là 46 phút 79 loa mới và cácđánh giá là một bộ tương ứng. Các mô hình bao gồm gắn trạng thái ẩn HMMshoàn toàn tiểu bang khác nhau năm 1918 và 76046 Gaussian hỗn hợp (GMM) linh kiện, thời gian ngắntính năng Mel-cepstral (MFCCs), tối đa khả năng biến đổi tuyến tính (MLLT) vàrõ ràng thời gian thực hiện mô hình điện thoại (Pylkkönen & Kurimo, 2004). Không có loa hoặc gọi điện thoạithích ứng cụ thể được thực hiện. Các yếu tố thời gian thực công nhận tốc độ là khoảng 10 xRT.
đang được dịch, vui lòng đợi..
