Hầu hết các hệ thống loa diarization có một kiến trúc chung tương tự như những gì thể hiện trong hình 
1. Đầu tiên, các dữ liệu âm thanh, thường có nguồn gốc từ các dòng suối âm thanh liên tục, được 
phân đoạn thành các dữ liệu bài phát biểu và không nói. Các phân đoạn không nói được bỏ đi và 
không được sử dụng trong chế biến tiếp theo, được thực hiện trong một mô-đun bài phát biểu phát hiện. Các bài phát biểu 
dữ liệu này sau đó được cắt nhỏ thành các đoạn đồng nhất trong một mô-đun âm thanh-phân 
(đánh dấu là phát hiện thay đổi âm thanh trong hình 1). Ranh giới phân khúc được đặt bởi 
việc tìm kiếm các thay đổi âm thanh trong tín hiệu, và mỗi đoạn là, kết quả là, dự kiến sẽ 
có bài phát biểu từ chỉ có một loa đơn duy nhất. Các phân đoạn kết quả sau đó nhóm để 
mỗi cụm tương ứng với chỉ một loa đơn duy nhất. Điều này được thực hiện trong một loa-clustering 
module và thường đại diện cho các giai đoạn cuối cùng trong hệ thống loa diarization. Ở giai đoạn này, 
mỗi cụm được dán nhãn với tên loa xác định tương đối. Ngoài ra, loa 
nhận dạng hoặc phát hiện giới tính có thể được thực hiện. Trong trường hợp đầu tiên, mỗi loa 
cụm có thể được đặt một cái tên giả thực sự, hay nó là trái không dán nhãn nếu các dữ liệu bài phát biểu tại các 
cụm không tương ứng với bất kỳ của các diễn giả mục tiêu. Trong trường hợp phát hiện giới tính, mỗi 
cụm được một nhãn phụ để chỉ cho đó giới nó thuộc về. Như vậy loa 
diarization suối âm thanh liên tục là một quá trình nhiều tầng tạo thành bốn chính 
thành phần: phát hiện bài phát biểu, phân khúc âm thanh loa, loa clustering, và loa 
nhận dạng. Tổng quan mới nhất của các phương pháp được sử dụng trong các nhiệm vụ loa diarization có thể 
được tìm thấy trong (Tranter & Reynolds, 2006).
đang được dịch, vui lòng đợi..
