The baseline BIC approach: (described in Section 2.2)The audio data we dịch - The baseline BIC approach: (described in Section 2.2)The audio data we Việt làm thế nào để nói

The baseline BIC approach: (describ

The baseline BIC approach: (described in Section 2.2)
The audio data were represented by MFCC features, which were composed of the first
12 cepstral coefficients (without the 0th coefficient) and a short-term energy with the
addition of the ΔMFCC features. The ΔMFCC features were computed by estimating
the first-order regression coefficients from the static MFCC features. The features were
derived from audio signals every 10 ms by using 32-ms analysis windows, (Young et
al., 2004). For the estimations of the ΔBIC measure from equation (4) each cluster was
modeled using full-covariance Gaussian distributions, and the penalty factor λ was set
to 3.0, which was chosen according to the optimal clustering performance on the
development dataset.
This approach is referred to as the clust_REF_BIC approach in our experiments.
• The UBM-MAP-CLR approach: (described in Section 2.3)
The audio data were represented by the same feature set as was used in the baseline
BIC approach, but with the addition of feature warping (Pelecanos & Sridharan, 2001),
which was performed on each segment separately. All the GMMs were constructed
from 32 diagonal-covariance Gaussian mixtures. The UBM was estimated directly from
the processing audio data by using the expectation-maximization algorithm
(Theodoridis & Koutroumbas, 2003). No separate gender-derived models were trained.
The MAP adaptation of (only) the UBM means was performed on each cluster to derive
cluster-based GMMs. Next, the clusters where the highest CLR score in equation (5)
was achieved were merged at each step of the merging process.
This approach is referred to as the clust_UBM_MAP_CLR approach in our
experiments.
• The FUSION approach: (described in Sections 3.1–3.2)
The fusion of acoustic and prosodic representations is described by equation (10). The
acoustic representation of the audio data was implemented by the same MFCC-based
features as were used in the above approaches. The prosodic features were derived at
every speaker segment and were not changed during the clustering. When combining
the ΔBIC measure from equation (8) and the prosodic measure from equation (9) into the
weighted sum (10), the weighting parameter  needed to be set. This parameter was
tuned on the development dataset and set to a value of 0.85. This was in accordance
with our expectation that the main discriminative information for speaker clustering is
stored in the acoustics, while the prosody provides only supplementary information.
Note that we used the same penalty factor, λ=3.0, in the ΔBIC measure as was used in the
baseline BIC approach.
This approach is referred to as the clust_FUSION approach in our experiments.
0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
Đường cơ sở phương pháp tiếp cận BIC: (mô tả trong phần 2.2)Dữ liệu âm thanh đã được đại diện bởi các tính năng MFCC, được sáng tác đầu tiên12 cepstral hệ số (nếu không có hệ số 0) và một năng lượng ngắn hạn với cácNgoài ra các tính năng ΔMFCC. Các tính năng ΔMFCC được tính toán bởi ước tínhHệ số hồi qui đơn đặt hàng đầu tiên từ các tính năng MFCC tĩnh. Các tính năng đãxuất phát từ tín hiệu âm thanh mỗi 10 ms bằng cách sử dụng 32-ms phân tích windows, (et trẻAl, 2004). Cho estimations các biện pháp ΔBIC từ phương trình (4) mỗi cụmtạo mô hình bằng cách sử dụng phân phối Gaussian full-hiệp phương sai, và hình phạt yếu tố λ đã được thiết lậpđến 3.0, mà đã được lựa chọn theo các tối ưu clustering hiệu suất trên cácsố liệu phát triển.Cách tiếp cận này được gọi là phương pháp tiếp cận clust_REF_BIC trong các thí nghiệm của chúng tôi.• UBM-bản đồ-CLR phương pháp tiếp cận: (mô tả trong phần 2.3)Dữ liệu âm thanh đã được đại diện bởi các tính năng tương tự như được sử dụng trong đường cơ sởCách tiếp cận BIC, nhưng với việc bổ sung các tính năng cong vênh (Pelecanos & diep, 2001),mà được thực hiện trên mỗi đoạn riêng biệt. Tất cả các GMMs đã được xây dựngtừ 32 đường chéo-hiệp phương sai Gaussian hỗn hợp. UBM được ước tính trực tiếp từxử lý dữ liệu âm thanh bằng cách sử dụng các thuật toán cực đại hóa kỳ vọng(Theodoridis & Koutroumbas, 2003). Không có mô hình giới tính có nguồn gốc riêng biệt đào tạo.Phiên bản bản đồ (chỉ) là các phương tiện UBM được thực hiện trên mỗi cụm để lấy đượcDựa trên cụm GMMs. Tiếp theo, các cụm nơi CLR cao điểm trong phương trình (5)đã đạt được đã được sáp nhập ở mỗi bước của quá trình merging.Cách tiếp cận này được gọi là phương pháp tiếp cận clust_UBM_MAP_CLR trong của chúng tôithí nghiệm.• Các phương pháp tổng HỢP: (mô tả trong phần 3,1 – 3,2)Tổng hợp đại diện âm thanh và prosodic được mô tả bởi phương trình (10). CácCác đại diện âm thanh của các dữ liệu âm thanh đã được thực hiện bởi cùng một dựa trên MFCCCác tính năng như đã được sử dụng trong các phương pháp nêu trên. Các tính năng prosodic đã xuất phát tạimọi phân khúc loa và không được thay đổi trong các cụm. Khi kết hợpCác biện pháp ΔBIC từ phương trình (8) và các biện pháp prosodic từ phương trình (9) vào cáctrọng tổng hợp (10), các thông số cân  cần được thiết lập. Tham số này làđiều chỉnh vào số liệu phát triển và thiết lập một giá trị của 0,85. Điều này là phù hợpvới chúng tôi kỳ vọng rằng những thông tin chính discriminative cho loa clusteringlưu trữ trong âm thanh, trong khi Yahoo! cung cấp chỉ có thông tin bổ sung.Lưu ý rằng chúng tôi sử dụng các yếu tố giống hình phạt, λ = 3.0, trong đo ΔBIC như được sử dụng trong cácđường cơ sở phương pháp tiếp cận của BIC.Cách tiếp cận này được gọi là phương pháp tiếp cận clust_FUSION trong các thí nghiệm của chúng tôi.
đang được dịch, vui lòng đợi..
Kết quả (Việt) 2:[Sao chép]
Sao chép!
Cách tiếp cận BIC cơ bản: (mô tả trong phần 2.2)
các dữ liệu âm thanh đã được đại diện bởi các tính năng MFCC, mà được sáng tác đầu tiên
12 hệ số Cepstral (không có hệ số 0) và một năng lượng ngắn hạn với sự
bổ sung các tính năng ΔMFCC. Các tính năng ΔMFCC được tính toán bằng cách ước lượng
các hệ số hồi quy bậc nhất từ các tính năng MFCC tĩnh. Các tính năng đã được
bắt nguồn từ các tín hiệu âm thanh mỗi 10 ms bằng cách sử dụng cửa sổ phân tích 32-ms, (Young et
al., 2004). Đối với các ước tính của các biện pháp ΔBIC từ phương trình (4) mỗi cụm được
mô phỏng bằng toàn hiệp phương sai phân phối Gaussian, và λ yếu tố hình phạt đã được thiết lập
để 3,0, được chọn theo hiệu suất phân nhóm tối ưu trên các
tập dữ liệu phát triển.
Cách tiếp cận này là được gọi là phương pháp tiếp cận clust_REF_BIC trong các thí nghiệm của chúng tôi.
• phương pháp UBM-MAP-CLR: (mô tả trong phần 2.3)
các dữ liệu âm thanh đã được đại diện bởi các tính năng như đã được sử dụng trong các cơ sở
cách tiếp cận BIC, nhưng với việc bổ sung thêm tính năng cong vênh (Pelecanos & Sridharan, 2001),
được thực hiện trên từng phân khúc riêng biệt. Tất cả các GMMs đã được xây dựng
từ 32 hỗn hợp Gaussian chéo-hiệp phương sai. Các UBM ước tính trực tiếp từ
các dữ liệu xử lý âm thanh bằng cách sử dụng các thuật toán cực đại hóa kỳ vọng
(Theodoridis & Koutroumbas, 2003). Không có mô hình giới có nguồn gốc riêng biệt đã được đào tạo.
Sự thích nghi của MAP (chỉ) các phương tiện UBM được thực hiện trên mỗi cụm để lấy được
GMMs theo cụm trường. Tiếp theo, các cụm, nơi số điểm CLR cao nhất trong phương trình (5)
. Đã đạt được sáp nhập tại mỗi bước của quá trình hợp nhất
cách tiếp cận này được gọi là phương pháp tiếp cận của chúng tôi clust_UBM_MAP_CLR trong
thí nghiệm.
• Phương pháp FUSION: (mô tả trong mục 3.1 3.2)
các phản ứng tổng hợp của cơ quan đại diện âm thanh và điệu tính được mô tả bởi phương trình (10). Các
đại diện âm thanh của file âm thanh đã được thực hiện bởi các MFCC dựa trên cùng
các tính năng như đã được sử dụng trong phương pháp trên. Các tính năng điệu tính đã được bắt nguồn ở
mọi phân khúc loa và không được thay đổi trong các phân nhóm. Khi kết hợp
các biện pháp ΔBIC từ phương trình (8) và các biện pháp điệu tính từ phương trình (9) vào
tổng trọng (10), tham số trọng  cần phải được thiết lập. Thông số này được
điều chỉnh trên các số liệu phát triển và đặt giá trị là 0,85. Điều này là phù hợp
với kỳ vọng của chúng tôi rằng thông tin phân biệt chính cho loa phân nhóm được
lưu trữ trong các âm thanh, trong khi thi pháp chỉ cung cấp thông tin bổ sung.
Lưu ý rằng chúng tôi sử dụng các yếu tố cùng một hình phạt, λ = 3,0, trong các biện pháp ΔBIC như đã được sử dụng trong các
phương pháp tiếp cận BIC đường cơ sở.
phương pháp này được gọi là phương pháp tiếp cận clust_FUSION trong các thí nghiệm của chúng tôi.
đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2024 I Love Translation. All reserved.

E-mail: