2. NamedEntityRecognitionforOOVs Không có vấn đề kích thước từ vựng, LVCSR hệ thống sẽ gặp phải và mis-recognizeOOVs, especiallyinnewdomainsorgenres. Chúng thường bao gồm tên tổ chức; trong của chúng tôi tập hợp dữ liệu tiếng Anh tin tức phát sóng 66% của các OOVs được đặt tên thực thể, chiếm 21% của tất cả các thực thể được đặt tên theo. Vấn đề này thường bị bỏ qua trong NER trong bài phát biểu [7, 4]; và một số đối phó với OOV tổ chức bởi điều chỉnh các từ vựng và các mô hình ngôn ngữ để specific khoảng thời gian của các thử nghiệm thiết lập [8]. Để nhận ra OOV NEs, chúng tôi tăng thêm một tagger Tây tiêu chuẩn để bao gồm các tính năng chỉ của điều khoản OOV. Tagger nên bỏ qua những từ decoded cho khu vực OOV và dựa trên bối cảnh để xác định các thực thể được đặt tên theo. Ví dụ, nếu tagger thấy chuỗi "Cựu tổng thống nhất của nó nói rằng" nó sẽ likelyfindnonamedentity. Tuy nhiên, "MOSTOFIT" isanob-vious phiên mã lỗi (cho "MILOSEVIC") và nếu tagger biết "MOSTOFIT" wasOOV, itcouldfocusoncontext ("tổng thống nhất-mer X nói") và xác định âm thanh tương ứng với "X" như một thực thể được đặt tên theo. AndSudohetal OurworkissimilartothatofHuang [3].[4] Hoàng sử dụng một cách tiếp cận dựa trên confidence để xác định các bảng điểm lỗi và bỏ qua dãy decoded từ lỗi re-gion, bằng cách sử dụng bối cảnh để truy vấn các tài liệu liên quan để phục hồi OOV. Heusesfeaturesfromtherecoveredwordanditscon-văn bản như đầu vào cho một hệ thống NER tiêu chuẩn. Trong tác phẩm này, chúng tôi có liên quan với identification và không phục hồi. Tuy nhiên, iden-tified được đặt theo tên thực thể trong âm thanh sao chép lại không chính xác có thể được nhắm mục tiêu cho việc phục hồi bằng cách sử dụng một hệ thống phục hồi OOV [9]. Hoàng và Sudoh et al. dựa trên xác suất hậu nghiệm từ là một thước đo confidence. Sudoh et al. kết hợp số liệu này với thedecodedwordsequenceandcontextualPOStaginformation bằng cách sử dụng SVMs để phát hiện các khu vực không đáng tin cậy. Chúng tôi xem xét một cách tiếp cận tương tự (errordet) như là một đường cơ sở. Cách tiếp cận của chúng tôi sử dụng đầu ra của một OOV phát hiện như tại - dicative của miền bắc. Trong phần tiếp theo, chúng tôi giới thiệu chúng tôi tagger Bắc-Tây Bắc và mô tả làm thế nào chúng tôi kết hợp thông tin OOV
đang được dịch, vui lòng đợi..