Sự công nhận tên thực thể (NER) trong văn bản, một bước quan trọng trong khai thác thông tin-mation, thường được coi là một chuỗi ghi nhãn nhiệm vụ mà thực thể được đánh dấu là người dân, địa điểm và hoặc-ganizations [1]. Đánh giá đã tập trung vào văn bản newswire và tự phiên âm phát sóng tin tức. Tuy nhiên, NER trong bài phát biểu tự động công nhận (ASR) sản xuất bảng điểm là một thách thức do công nhận lỗi và thiếu của các phổ biến các dấu hiệu được đặt tên thực thể (dấu chấm câu, chữ viết hoa, chữ số, vv) Dễ hiểu, hiệu suất chậm lại đằng sau của văn bản ap-plications. Các nỗ lực để cải thiện bài phát biểu NER đã bao gồm bảng điểm bình thường [2], kết hợp các bài phát biểu công nhận confidence tính năng [3, 4], hoặc gắn thẻ LVCSR từ lattices [5]. Một vấn đề unaddressed difficult xuất phát từ điều khoản out của từ vựng (OOV): từ mà bị thiếu từ LVCSR từ vựng-ulary. Kể từ khi nhiều OOVs tên riêng (66% của OOVs trong corpus của chúng tôi được đặt tên thực thể), OOV công nhận lỗi đặc biệt là gây tổn hại cho NER. Trong tác phẩm này, chúng tôi cải thiện bài phát biểu NER bằng cách cho phép từ khóa cung cấp để xác định không chính xác decoded phần của bài phát biểu, nơi một thực thể được đặt tên nói. Tìm khu vực âm thanh như vậy cho phép sao chép được nhắm mục tiêu hướng dẫn sử dụng, hoặc tự động OOV những nỗ lực phục hồi. Để nhận ra OOV NEs, chúng tôi tăng cường các tính năng trong một hệ thống NER bao gồm chỉ dẫn của OOVs có thể trong bảng điểm bằng cách sử dụng một hệ thống phát hiện OOV [6]. Các tính năng này mang lại significant cải tiến cho OOV NEs đặc biệt, cũng như NEs nói chung. Để đánh giá cách tiếp cận của chúng tôi, chúng tôi giới thiệu tin tức phát sóng bài phát biểu dữ liệu bộ mới chú thích cho tên thực thể bằng cách sử dụng Ama-zon cơ khí Turk. Chúng tôi mô tả các phương pháp được sử dụng để tạo ra tập hợp dữ liệu này và thuộc tính của nó. Ngoài ra, chúng tôi cung cấp các chú thích thu thập để khuyến khích các nghiên cứu trong lĩnh vực này.
đang được dịch, vui lòng đợi..