A standard approach to extracting p

A standard approach to extracting prosodic information from speech signals is to define the
basic units of speech and then produce different features from the duration, pitch and
energy measurements associated with these units (Noth et al., 2002). A key question is what
kind of speech units should be applied and how much data is needed for a reliable
estimation of the prosodic events? When prosodic information is modeled in combination
with automatic speech-recognition systems, the usual way of producing prosodic features is
to use recognized words as the basic speech units (Noth et al., 2002). In this case a large
amount of training data should be available, which is not the case when modeling the
prosodic information of the speakers from the speaker clusters. Consequently, the basic
speech units should be defined on sub-word speech regions. In (Shriberg et al., 2005) the
prosodic features were extracted from the syllable-based regions of speech, while we
decided to use the voiced-unvoiced (VU) regions. Using the VU regions in speaker
clustering has several advantages over the syllable-based representation. Both types of sub word
units operate at nearly the same speech-region levels and thus the same techniques for
computing prosodic features can be applied, but the VU regions can be detected without the
use of large-vocabulary speech-recognition systems and are language independent, which is
not the case when the speech units are represented by syllables or words.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Một phương pháp tiêu chuẩn để chiết xuất thông tin prosodic từ tín hiệu ngôn ngữ là để xác định cácCác đơn vị cơ bản của bài phát biểu và sau đó sản xuất các tính năng khác nhau từ thời gian thực hiện, pitch vàđo lường năng lượng kết hợp với các đơn vị (Noth et al., 2002). Một câu hỏi quan trọng là những gìloại của các đơn vị ngôn ngữ nên được áp dụng và bao nhiêu dữ liệu là cần thiết cho một đáng tin cậydự toán của các sự kiện prosodic? Khi prosodic thông tin mô hình kết hợpvới hệ thống tự động nhận dạng giọng nói, cách thông thường để sản xuất prosodic tính năng làsử dụng các từ ngữ được công nhận là đơn vị cơ bản bài phát biểu (Noth et al., 2002). Trong trường hợp này một lượng lớnsố lượng dữ liệu đào tạo nên có sẵn, mà không phải là trường hợp khi mô hình hóa cácprosodic thông tin của các diễn giả từ các cụm loa. Do vậy, cơ bảnđơn vị ngôn ngữ nên được định nghĩa trên tiểu từ bài phát biểu khu vực. Tại (Shriberg et al., 2005) làprosodic các tính năng đã được chiết xuất từ các vùng dựa trên âm tiết của bài phát biểu, trong khi chúng tôiquyết định sử dụng khu vực (VŨ) unvoiced lồng tiếng. Bằng cách sử dụng vùng VŨ ở loacụm, có một số lợi thế hơn các đại diện âm tiết. Cả hai loại của phụ từđơn vị vận hành gần như cùng một bài phát biểu-vùng mức độ và do đó các kỹ thuật tương tự chomáy tính prosodic tính năng có thể được áp dụng, nhưng các vùng VŨ có thể phát hiện mà không có cácsử dụng các hệ thống lớn vốn từ vựng nhận dạng giọng nói và ngôn ngữ độc lập, mà làkhông phải là trường hợp khi các đơn vị ngôn ngữ được đại diện bởi âm tiết hoặc các từ.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Một cách tiếp cận tiêu chuẩn để trích xuất thông tin từ điệu tính tín hiệu phát biểu là xác định các
đơn vị cơ bản của bài phát biểu và sau đó tạo ra các tính năng khác nhau từ thời gian, cường độ và
năng lượng đo liên kết với các đơn vị (Noth et al., 2002). Một câu hỏi quan trọng là những gì
loại của các đơn vị lời nói cần được áp dụng và bao nhiêu dữ liệu là cần thiết cho một đáng tin cậy
ước tính của các sự kiện điệu tính? Khi thông tin điệu tính được mô hình hóa kết hợp
với hệ thống nhận diện giọng nói tự động, theo cách thông thường của sản xuất năng điệu tính là
dùng những từ ngữ được công nhận là đơn vị phát biểu cơ bản (Noth et al., 2002). Trong trường hợp này, một lượng lớn
số lượng dữ liệu đào tạo nên có sẵn, mà không phải là trường hợp khi mô hình hóa các
thông tin điệu tính của các diễn giả đến từ các cụm loa. Do đó, cơ bản
các đơn vị lời nói cần được xác định trên vùng biểu tiểu từ. Trong (Shriberg et al., 2005) các
tính năng điệu tính được chiết xuất từ các vùng âm tiết dựa trên ngôn luận, trong khi chúng tôi
quyết định sử dụng The Voice-bị mất tiếng vùng (VU). Sử dụng các vùng VU loa
phân nhóm có một số ưu điểm so với các đại diện âm tiết dựa trên. Cả hai loại từ tiểu
đơn vị hoạt động ở mức speech-khu vực gần như nhau và do đó các kỹ thuật tương tự để
tính toán tính năng điệu tính có thể được áp dụng, nhưng các vùng VU có thể được phát hiện mà không
sử dụng hệ thống nhận dạng tiếng nói lớn từ vựng và ngôn ngữ độc lập , đó là
không phải là trường hợp khi các đơn vị phát biểu được đại diện bởi các âm tiết hoặc từ.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.