Đã các nguồn năng lượng tinh lọc lọc tần số logarit (FF-logFBEs) (Nadeu và ctv., 2001) được sử dụng như đại diện tính năng speech, do sự phù hợp của MFT dựa trên sự công nhận như là thảo luận trước đó. Lưu ý rằng FF-logFBEs đạt được hiệu quả tương tự (trong trung bình) là tiêu chuẩn MFCCs. FF-logFBEs đã thu được với các thiết lập thông số sau đây: khung hình của 32 ms chiều dài với một sự thay đổi của 10 ms giữa khung đã được sử dụng; preemphasis cả và cửa sổ Hamming đã được áp dụng cho mỗi khung; phổ độ lớn thời gian ngắn, thu được bằng cách áp dụng FFT, là thông qua Mel khoảng cách lọc-ngân hàng phân tích với 20 Kênh; Các nguồn năng lượng lọc-ngân hàng thu được logarit được lọc bằng cách sử dụng các bộ lọc H (z) = z -z-1. Một tính năng vector bao gồm 18 yếu tố nhận được (edge giá trị đã bị loại trừ). Để bao gồm thông tin quang phổ năng động, các tham số thứ tự đầu tiên delta đã Thêm vào FF-tính năng vector tĩnh. Các HMMs đã được đào tạo theo các thủ tục phân phối với Aurora 2 cơ sở dữ liệu. Mỗi chữ số được mô hình bởi một HMM trái-sang-phải liên tục quan sát với 16 bang (no bỏ qua cho phép) và ba thành phần Gauss hỗn hợp với ma trận hiệp phương sai đường chéo cho mỗi tiểu bang. Trong sự công nhận, các hệ thống dựa trên MFT lề tính năng tĩnh theo mặt nạ làm việc, và sử dụng tất cả các tính năng của delta.
đang được dịch, vui lòng đợi..