nơi Gb (k) là tần số của các kênh lọc ngân hàng b, và kb và Nb là
tần số thành phần thấp nhất và số lượng của các thành phần của đáp ứng tần số,
tương ứng, và X (b) là tổng thể lọc ngân hàng giá trị năng lượng.
4. Post-chế biến thì giọng nói-xa:
Các lồng tiếng, khoảng cách thu được từ bước (2) và (3) có thể vô tình trở thành một giá trị thấp
cho một khu vực bị mất tiếng hoặc ngược lại. Để giảm thiểu những sai sót, chúng tôi đã lọc các voicing-
khoảng cách bằng cách sử dụng bộ lọc trung bình 2-D do tính hiệu quả trong việc loại trừ giá trị ngoại lai
và sự đơn giản. Trong chúng ta thiết lập, bộ lọc trung bình của kích thước 5x9 và 3x3 (số đầu tiên là
số lượng khung hình và thứ hai số lượng của các chỉ số tần số) đã được sử dụng để lọc
lồng tiếng, khoảng cách vd (k) và vdfb (b), tương ứng .
Ví dụ về spectrograms ngôn luận ồn ào và lồng tiếng, khoảng cách tương ứng cho
các kênh phổ và lọc ngân hàng được mô tả trong hình 1.
đang được dịch, vui lòng đợi..
