Được biết, tai con người giải quyết các tần số bằng cách nhóm nhiều tần số liền kề
kênh vào cái gọi là ban nhạc quan trọng (Moore, 2003). Đối với mục đích nhận dạng giọng nói của
độ phân giải tần số STFT tuyến tính thường được chuyển đổi đến một quy mô tần số nhận thức, chẳng hạn
như vỏ cây hoặc mel quy mô (Moore, 2003; trẻ et al, 2006).. Một xấp xỉ được sử dụng rộng rãi trong
các độ phân giải tần số không tuyến tính của hệ thống thính giác của con người là quy mô mel tần số
đang được dịch, vui lòng đợi..