Named entity recognition (NER) in text, a key step in infor- mation ex dịch - Named entity recognition (NER) in text, a key step in infor- mation ex Việt làm thế nào để nói

Named entity recognition (NER) in t

Named entity recognition (NER) in text, a key step in infor- mation extraction, is typically treated as a sequence labeling task in which entities are labeled as people, locations and or- ganizations [1]. Evaluations have focused on newswire text and manually transcribed broadcast news. However, NER in automatic speech recognition (ASR) produced transcripts is a challenge due to recognition errors and the lack of common named entity markers (punctuation, capitalization, numerals, etc.) Understandably, performance lags behind that of text ap- plications. Attempts to improve speech NER have included transcript normalization [2], incorporating speech recognition confidence features [3, 4], or tagging LVCSR word lattices [5]. A difficult unaddressed problem comes from out-of-vocabulary (OOV) terms: words that are missing from the LVCSR vocab- ulary. Since many OOVs are proper names (66% of the OOVs in our corpus are named entities,) OOV recognition errors are particularly damaging for NER. In this work, we improve speech NER by allowing the tag- ger to identify incorrectly decoded sections of speech where a named entity was spoken. Finding such audio regions allows for targeted manual transcription, or automated OOV recovery efforts. To recognize OOV NEs, we augment the features in an NER system to include indications of possible OOVs in the transcript using an OOV detection system [6]. These features yield significant improvements for OOV NEs in particular, as well as NEs in general. To evaluate our approach, we introduce a new broadcast news speech data set annotated for named entities using Ama- zon Mechanical Turk. We describe the methods used to create this data set and its properties. Additionally, we provide these collected annotations to encourage research in this area.
0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
Sự công nhận tên thực thể (NER) trong văn bản, một bước quan trọng trong khai thác thông tin-mation, thường được coi là một chuỗi ghi nhãn nhiệm vụ mà thực thể được đánh dấu là người dân, địa điểm và hoặc-ganizations [1]. Đánh giá đã tập trung vào văn bản newswire và tự phiên âm phát sóng tin tức. Tuy nhiên, NER trong bài phát biểu tự động công nhận (ASR) sản xuất bảng điểm là một thách thức do công nhận lỗi và thiếu của các phổ biến các dấu hiệu được đặt tên thực thể (dấu chấm câu, chữ viết hoa, chữ số, vv) Dễ hiểu, hiệu suất chậm lại đằng sau của văn bản ap-plications. Các nỗ lực để cải thiện bài phát biểu NER đã bao gồm bảng điểm bình thường [2], kết hợp các bài phát biểu công nhận confidence tính năng [3, 4], hoặc gắn thẻ LVCSR từ lattices [5]. Một vấn đề unaddressed difficult xuất phát từ điều khoản out của từ vựng (OOV): từ mà bị thiếu từ LVCSR từ vựng-ulary. Kể từ khi nhiều OOVs tên riêng (66% của OOVs trong corpus của chúng tôi được đặt tên thực thể), OOV công nhận lỗi đặc biệt là gây tổn hại cho NER. Trong tác phẩm này, chúng tôi cải thiện bài phát biểu NER bằng cách cho phép từ khóa cung cấp để xác định không chính xác decoded phần của bài phát biểu, nơi một thực thể được đặt tên nói. Tìm khu vực âm thanh như vậy cho phép sao chép được nhắm mục tiêu hướng dẫn sử dụng, hoặc tự động OOV những nỗ lực phục hồi. Để nhận ra OOV NEs, chúng tôi tăng cường các tính năng trong một hệ thống NER bao gồm chỉ dẫn của OOVs có thể trong bảng điểm bằng cách sử dụng một hệ thống phát hiện OOV [6]. Các tính năng này mang lại significant cải tiến cho OOV NEs đặc biệt, cũng như NEs nói chung. Để đánh giá cách tiếp cận của chúng tôi, chúng tôi giới thiệu tin tức phát sóng bài phát biểu dữ liệu bộ mới chú thích cho tên thực thể bằng cách sử dụng Ama-zon cơ khí Turk. Chúng tôi mô tả các phương pháp được sử dụng để tạo ra tập hợp dữ liệu này và thuộc tính của nó. Ngoài ra, chúng tôi cung cấp các chú thích thu thập để khuyến khích các nghiên cứu trong lĩnh vực này.
đang được dịch, vui lòng đợi..
Kết quả (Việt) 2:[Sao chép]
Sao chép!
Công nhận thực thể có tên (NER) trong văn bản, một bước quan trọng trong khai thác thông tin, thường được coi là một nhiệm vụ dán nhãn tự, trong đó các đơn vị được dán nhãn là người, địa điểm và ganizations hay- [1]. Đánh giá tập trung vào các văn bản mạng tin và tin tức phát sóng bằng tay ghi chép. Tuy nhiên, NER trong nhận dạng giọng nói tự động (ASR) sản xuất bảng điểm là một thách thức do lỗi nhận dạng và thiếu dấu hiệu phổ biến có tên thực thể (dấu chấm câu, viết hoa, chữ số, vv) dễ hiểu, hiệu suất bị tụt hậu mà văn bản ứng dụng với nhau. Nỗ lực để cải thiện giọng nói NER đã bao gồm bảng điểm bình thường [2], kết hợp nhận dạng giọng nói con fi dence tính năng [3, 4], hoặc gắn thẻ Lưới từ LVCSR [5]. Một dif fi giáo phái vấn đề chưa được giải quyết đến từ out-of-từ vựng (OOV) điều kiện: từ mà bị thiếu từ LVCSR vocab- ulary. Vì nhiều OOVs là những cái tên thích hợp (66% OOVs trong corpus của chúng tôi được đặt tên đơn vị,) lỗi nhận OOV là đặc biệt nguy hại cho NER. Trong tác phẩm này, chúng tôi cải thiện bài phát biểu NER bằng cách cho phép các ger tag- để xác định các phần giải mã không chính xác của lời nói mà là một thực thể có tên được nói. Việc tìm kiếm các khu vực âm thanh như cho phép nhắm mục tiêu phiên mã dẫn sử dụng, hoặc tự động nỗ lực phục hồi OOV. Để nhận OOV NE, chúng tôi tăng cường các tính năng trong một hệ thống NER để bao gồm chỉ dẫn của OOVs thể trong bảng điểm sử dụng một hệ thống phát hiện OOV [6]. Những tính năng này mang lại những cải tiến trọng yếu cho OOV NE đặc biệt, cũng như NE nói chung. Để đánh giá phương pháp của chúng tôi, chúng tôi giới thiệu một tin tức phát sóng bộ dữ liệu bài phát biểu mới chú thích cho thực thể có tên sử dụng Ama- zon Mechanical Turk. Chúng tôi mô tả các phương pháp được sử dụng để tạo ra các tập dữ liệu này và thuộc tính của nó. Ngoài ra, chúng tôi cung cấp các chú thích này thu thập để khuyến khích nghiên cứu trong lĩnh vực này.
đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2024 I Love Translation. All reserved.

E-mail: