2. FEATURE EXTRACTION FROM VOCAL TRACT
Human's vocal tract, the airway used in the production of speech is the organs above the vocal
folds, especially the passage above the larynx, including the pharynx, mouth, and nasal cavities.
which is formed of the oral part (pharynx, tongue, lips, and jaw) , olfactory nerves, and the nasal
tract. When the glottal pulses signal generated by the vibration of the vocal folds passes through
the vocal tract, it is modified. Human’s vocal tract is performing like a filter, and its frequency
characteristics is dependent upon the resonance peak from the vocal tract and vocal tract
configuration can be obtained from the spectral shape such as formant position and spectral
inclination of the speech signal. These features can be obtained from the spectrogram of the
speech signal and we are using Mel-Frequency Cepstral Coefficients (MFCC) features in speaker
identification as it combines the advantages of the cepstrum analysis with a perceptual frequency
scale based on critical bands. Although the speech signal is non-stationary, but can be assumed as
stationary for a short duration of time, so analysis is done by framing the speech signal; the frame
width is about 20−30 milliseconds, and the frames are shifted by about 10 milliseconds.
2. TÍNH NĂNG KHAI THÁC TỪ THANH HÓACủa con người thanh hóa, airway được sử dụng trong việc sản xuất các bài phát biểu là các cơ quan trên giọng hátnếp gấp, đặc biệt là các đoạn văn trên thanh quản, họng, miệng và hốc mũi.đó hình thành một phần miệng (cổ họng, lưỡi, môi và hàm), dây thần kinh khứu giác và mũiđường. Khi tín hiệu glottal xung tạo ra bởi những rung động của các nếp thanh âm đi quađường thanh nhạc, nó sửa đổi. Đường giọng hát của con người hoạt động như một bộ lọc, và tần số của nóđặc điểm là phụ thuộc vào cao điểm cộng hưởng từ thanh hóa và thanh hóacấu hình có thể được lấy từ hình dạng quang phổ, chẳng hạn như vị trí formant và quang phổđộ nghiêng của tín hiệu ngôn ngữ. Các tính năng này có thể được lấy từ spectrogram của cácbài phát biểu tín hiệu và chúng tôi đang sử dụng tần số Mel Cepstral hệ số (MFCC) tính năng loanhận dạng vì nó kết hợp những ưu điểm của phân tích cepstrum với một tần số perceptualquy mô dựa trên ban nhạc quan trọng. Mặc dù các tín hiệu ngôn ngữ là không cố định, nhưng có thể được giả định làvăn phòng phẩm cho một thời gian ngắn, do đó phân tích được thực hiện bởi khung các tín hiệu phát biểu; khung hìnhchiều rộng khoảng 20−30 mili giây, và các khung hình được chuyển bởi khoảng 10 mili giây.
đang được dịch, vui lòng đợi..
2. ĐẶC EXTRACTION TỪ VOCAL TRACT
đường vocal nhân của, các đường hàng không được sử dụng trong việc sản xuất các bài phát biểu là các cơ quan trên giọng hát
nếp gấp, đặc biệt là đoạn trên thanh quản, bao gồm cả cổ họng, miệng và lỗ mũi.
Mà được hình thành trong miệng phần (họng, lưỡi, môi và cằm), dây thần kinh khứu giác, và các mũi
đường. Khi tín hiệu xung thanh hầu tạo ra bởi các rung động của những nếp gấp thanh nhạc đi qua
đường thanh nhạc, nó được sửa đổi. Thanh quản của con người được biểu diễn như một bộ lọc, và tần số của nó
đặc điểm là phụ thuộc vào các đỉnh cộng hưởng từ đường thanh nhạc và đường vocal
cấu hình có thể được lấy từ hình dạng quang phổ như vị trí formant và phổ
nghiêng của tín hiệu tiếng nói. Những tính năng này có thể thu được từ phổ của
tín hiệu tiếng nói và chúng tôi đang sử dụng Mel-Frequency Cepstral Coefficients (MFCC) tính năng loa
xác định vì nó kết hợp những ưu điểm của việc phân tích cepstrum với một tần số nhận thức
quy mô dựa trên ban nhạc quan trọng. Mặc dù các tín hiệu tiếng nói là không dừng, nhưng có thể được giả định là
tĩnh trong một thời gian ngắn, do đó phân tích được thực hiện bằng cách đóng khung tín hiệu tiếng nói; khung
chiều rộng là khoảng 20-30 mili giây và khung được chuyển bằng khoảng 10 phần nghìn giây.
đang được dịch, vui lòng đợi..