2. Named Entity Recognition for OOV

2. Named Entity Recognition for OOVs
No matter the vocabulary size, LVCSR systems will encounter and mis-recognizeOOVs, especiallyinnewdomainsorgenres. These often include named entities; in our English broadcast news data set 66% of the OOVs are named entities, accounting for 21% of all named entities. This problem is often ignored in NER in speech [7, 4]; and some cope with OOV entities by adapting the vocabulary and the language model to the speciﬁc time interval of the test set [8]. To recognize OOV NEs, we augment a standard NE tagger to include features indicative of OOV terms. The tagger should ignore the decoded words for OOV regions and rely on context to identify the named entity. For example, if the tagger sees the string “FORMER PRESIDENT MOST OF IT SAID” it would likelyﬁndnonamedentity. However,“MOSTOFIT”isanob- vious transcription error (for “MILOSEVIC”) and if the tagger knew“MOSTOFIT”wasOOV,itcouldfocusoncontext(“For- mer President X said”) and identify the audio corresponding to “X” as a named entity. OurworkissimilartothatofHuang[3]andSudohetal.[4] Huang uses a conﬁdence based approach to identify transcript errors and ignores the decoded word sequence in the error re- gion, using the context to query relevant documents for OOV recovery. Heusesfeaturesfromtherecoveredwordanditscon- text as input for a standard NER system. In this work, we are concerned with identiﬁcation and not recovery. However, iden- tiﬁed named entities in incorrectly transcribed audio could be targeted for recovery using an OOV recovery system [9]. Both Huang and Sudoh et al. rely on the word posterior probability as a conﬁdence metric. Sudoh et al. combine this metric with thedecodedwordsequenceandcontextualPOStaginformation using SVMs to detect unreliable regions. We consider a similar approach (errordet) as a baseline. Our approach uses the output of an OOV detector as in- dicative of NE regions. In the next section, we introduce our NE tagger and describe how we incorporate OOV information

2. Named Entity Recognition for OOVs 
No matter the vocabulary size, LVCSR systems will encounter and mis-recognizeOOVs, especiallyinnewdomainsorgenres. These often include named entities; in our English broadcast news data set 66% of the OOVs are named entities, accounting for 21% of all named entities. This problem is often ignored in NER in speech [7, 4]; and some cope with OOV entities by adapting the vocabulary and the language model to the speciﬁc time interval of the test set [8]. To recognize OOV NEs, we augment a standard NE tagger to include features indicative of OOV terms. The tagger should ignore the decoded words for OOV regions and rely on context to identify the named entity. For example, if the tagger sees the string “FORMER PRESIDENT MOST OF IT SAID” it would likelyﬁndnonamedentity. However,“MOSTOFIT”isanob- vious transcription error (for “MILOSEVIC”) and if the tagger knew“MOSTOFIT”wasOOV,itcouldfocusoncontext(“For- mer President X said”) and identify the audio corresponding to “X” as a named entity. OurworkissimilartothatofHuang[3]andSudohetal.[4] Huang uses a conﬁdence based approach to identify transcript errors and ignores the decoded word sequence in the error re- gion, using the context to query relevant documents for OOV recovery. Heusesfeaturesfromtherecoveredwordanditscon- text as input for a standard NER system. In this work, we are concerned with identiﬁcation and not recovery. However, iden- tiﬁed named entities in incorrectly transcribed audio could be targeted for recovery using an OOV recovery system [9]. Both Huang and Sudoh et al. rely on the word posterior probability as a conﬁdence metric. Sudoh et al. combine this metric with thedecodedwordsequenceandcontextualPOStaginformation using SVMs to detect unreliable regions. We consider a similar approach (errordet) as a baseline. Our approach uses the output of an OOV detector as in- dicative of NE regions. In the next section, we introduce our NE tagger and describe how we incorporate OOV information

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

2. tên thực thể công nhận cho OOVs Không có vấn đề kích thước từ vựng, LVCSR hệ thống sẽ gặp phải và mis-recognizeOOVs, especiallyinnewdomainsorgenres. Chúng thường bao gồm tên tổ chức; trong của chúng tôi tập hợp dữ liệu tiếng Anh tin tức phát sóng 66% của các OOVs được đặt tên thực thể, chiếm 21% của tất cả các thực thể được đặt tên theo. Vấn đề này thường bị bỏ qua trong NER trong bài phát biểu [7, 4]; và một số đối phó với OOV tổ chức bởi điều chỉnh các từ vựng và các mô hình ngôn ngữ để speciﬁc khoảng thời gian của các thử nghiệm thiết lập [8]. Để nhận ra OOV NEs, chúng tôi tăng thêm một tagger Tây tiêu chuẩn để bao gồm các tính năng chỉ của điều khoản OOV. Tagger nên bỏ qua những từ decoded cho khu vực OOV và dựa trên bối cảnh để xác định các thực thể được đặt tên theo. Ví dụ, nếu tagger thấy chuỗi "Cựu tổng thống nhất của nó nói rằng" nó sẽ likelyﬁndnonamedentity. Tuy nhiên, "MOSTOFIT" isanob-vious phiên mã lỗi (cho "MILOSEVIC") và nếu tagger biết "MOSTOFIT" wasOOV, itcouldfocusoncontext ("tổng thống nhất-mer X nói") và xác định âm thanh tương ứng với "X" như một thực thể được đặt tên theo. AndSudohetal OurworkissimilartothatofHuang [3].[4] Hoàng sử dụng một cách tiếp cận dựa trên conﬁdence để xác định các bảng điểm lỗi và bỏ qua dãy decoded từ lỗi re-gion, bằng cách sử dụng bối cảnh để truy vấn các tài liệu liên quan để phục hồi OOV. Heusesfeaturesfromtherecoveredwordanditscon-văn bản như đầu vào cho một hệ thống NER tiêu chuẩn. Trong tác phẩm này, chúng tôi có liên quan với identiﬁcation và không phục hồi. Tuy nhiên, iden-tiﬁed được đặt theo tên thực thể trong âm thanh sao chép lại không chính xác có thể được nhắm mục tiêu cho việc phục hồi bằng cách sử dụng một hệ thống phục hồi OOV [9]. Hoàng và Sudoh et al. dựa trên xác suất hậu nghiệm từ là một thước đo conﬁdence. Sudoh et al. kết hợp số liệu này với thedecodedwordsequenceandcontextualPOStaginformation bằng cách sử dụng SVMs để phát hiện các khu vực không đáng tin cậy. Chúng tôi xem xét một cách tiếp cận tương tự (errordet) như là một đường cơ sở. Cách tiếp cận của chúng tôi sử dụng đầu ra của một OOV phát hiện như tại - dicative của miền bắc. Trong phần tiếp theo, chúng tôi giới thiệu chúng tôi tagger Bắc-Tây Bắc và mô tả làm thế nào chúng tôi kết hợp thông tin OOV

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

2. Đặt tên Entity Recognition cho OOVs
Không có vấn đề kích thước từ vựng, hệ thống LVCSR sẽ gặp phải và mis-recognizeOOVs, especiallyinnewdomainsorgenres. Chúng thường gồm các thực thể có tên; trong dữ liệu tin tức tiếng Anh phát sóng của chúng tôi thiết lập 66% OOVs được đặt tên đơn vị, chiếm 21% của tất cả các thực thể có tên. Vấn đề này thường bị bỏ qua trong NER trong bài phát biểu [7, 4]; và một số đối phó với các đơn vị OOV bằng cách thích ứng vốn từ vựng và các mô hình ngôn ngữ để các Speci fi c khoảng thời gian tập kiểm tra [8]. Để nhận OOV NE, chúng tôi tăng thêm một tagger NE tiêu chuẩn bao gồm các tính năng chỉ định của các điều khoản OOV. Các tagger nên bỏ qua những lời giải mã cho các khu vực OOV và dựa vào ngữ cảnh để xác định các thực thể có tên. Ví dụ, nếu các tagger thấy chuỗi "cựu Tổng thống NHẤT CỦA CNTT NÓI" nó sẽ có khả năng fi ndnonamedentity. Tuy nhiên, "MOSTOFIT" isanob- lỗi vious phiên mã (cho "Milosevic") và nếu tagger biết "MOSTOFIT" wasOOV, itcouldfocusoncontext ("ngoại mer Tổng thống X nói") và xác định các âm thanh tương ứng với "X" như một thực thể có tên . OurworkissimilartothatofHuang [3] andSudohetal. [4] Huang sử dụng một con fi dence dựa trên cách tiếp cận để xác định lỗi bảng điểm và bỏ qua các chuỗi từ được giải mã trong các lỗi tôn lại, bằng cách sử dụng ngữ cảnh để truy vấn tài liệu liên quan cho OOV phục hồi. Văn bản Heusesfeaturesfromtherecoveredwordanditscon- như là đầu vào cho một hệ thống NER tiêu chuẩn. Trong tác phẩm này, chúng tôi quan tâm với identi fi cation và không phục hồi. Tuy nhiên, iden- ti fi ed thực thể có tên trong âm thanh sao chép không chính xác có thể được nhắm mục tiêu cho việc phục hồi sử dụng một hệ thống phục hồi OOV [9]. Cả hai Huang và Sudoh et al. dựa vào xác suất từ phía sau như một con fi dence mét. Sudoh et al. kết hợp các số liệu này với thedecodedwordsequenceandcontextualPOStaginformation sử dụng SVMs để phát hiện vùng không đáng tin cậy. Chúng tôi xem xét một cách tiếp cận tương tự (errordet) như là một cơ sở. Cách tiếp cận của chúng tôi sử dụng đầu ra của một máy dò OOV như dicative trong- của vùng Đông Bắc. Trong phần tiếp theo, chúng tôi giới thiệu tagger NE của chúng tôi và mô tả cách chúng tôi kết hợp thông tin OOV

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.