và như vậy. Trong các mô hình, âm thanh và các tính năng trực quan được nhập khẩu vào hai hoặc nhiều song song
HMMs với cấu trúc topo khác nhau tương ứng, nhưng trên một số nút, chẳng hạn như điện thoại,
âm tiết et al; một số hạn chế được áp đặt để hạn chế sự không đồng bộ âm thanh và hình ảnh
dòng trạng thái (điện thoại hoặc âm tiết) cấp. Những MSHMMs mô tả sự tương quan và
không đồng bộ của các bài phát biểu của âm thanh và hình ảnh đến một mức độ nào. So với các dòng duy nhất
HMM, hiệu năng hệ thống được cải thiện đặc biệt là trong môi trường ngôn luận ồn ào, nhưng những
MSHMMs chỉ có thể sử dụng điện thoại như đơn vị công nhận cho việc nhận dạng giọng nói trên giữa hoặc
từ vựng cơ sở dữ liệu nghe nhìn lớn. Nó buộc các âm thanh và dòng hình ảnh được
đồng bộ trong ranh giới âm vị. Tuy nhiên, sự không đồng bộ âm thanh và hình ảnh
dòng vượt quá ranh giới âm vị trong nhiều điều kiện. Tỉ lệ nhận dạng tốt hơn nên
có được nếu mất sự hạn chế không đồng bộ của các dòng âm thanh và hình ảnh.
đang được dịch, vui lòng đợi..