Một phương pháp tiêu chuẩn để chiết xuất thông tin prosodic từ tín hiệu ngôn ngữ là để xác định cácCác đơn vị cơ bản của bài phát biểu và sau đó sản xuất các tính năng khác nhau từ thời gian thực hiện, pitch vàđo lường năng lượng kết hợp với các đơn vị (Noth et al., 2002). Một câu hỏi quan trọng là những gìloại của các đơn vị ngôn ngữ nên được áp dụng và bao nhiêu dữ liệu là cần thiết cho một đáng tin cậydự toán của các sự kiện prosodic? Khi prosodic thông tin mô hình kết hợpvới hệ thống tự động nhận dạng giọng nói, cách thông thường để sản xuất prosodic tính năng làsử dụng các từ ngữ được công nhận là đơn vị cơ bản bài phát biểu (Noth et al., 2002). Trong trường hợp này một lượng lớnsố lượng dữ liệu đào tạo nên có sẵn, mà không phải là trường hợp khi mô hình hóa cácprosodic thông tin của các diễn giả từ các cụm loa. Do vậy, cơ bảnđơn vị ngôn ngữ nên được định nghĩa trên tiểu từ bài phát biểu khu vực. Tại (Shriberg et al., 2005) làprosodic các tính năng đã được chiết xuất từ các vùng dựa trên âm tiết của bài phát biểu, trong khi chúng tôiquyết định sử dụng khu vực (VŨ) unvoiced lồng tiếng. Bằng cách sử dụng vùng VŨ ở loacụm, có một số lợi thế hơn các đại diện âm tiết. Cả hai loại của phụ từđơn vị vận hành gần như cùng một bài phát biểu-vùng mức độ và do đó các kỹ thuật tương tự chomáy tính prosodic tính năng có thể được áp dụng, nhưng các vùng VŨ có thể phát hiện mà không có cácsử dụng các hệ thống lớn vốn từ vựng nhận dạng giọng nói và ngôn ngữ độc lập, mà làkhông phải là trường hợp khi các đơn vị ngôn ngữ được đại diện bởi âm tiết hoặc các từ.
đang được dịch, vui lòng đợi..