2. NamedEntityRecognitionforOOVs
Không có vấn đề kích thước từ vựng, hệ thống LVCSR sẽ gặp phải và mis-recognizeOOVs, especiallyinnewdomainsorgenres. Chúng thường gồm các thực thể có tên; trong dữ liệu tin tức tiếng Anh phát sóng của chúng tôi thiết lập 66% OOVs được đặt tên đơn vị, chiếm 21% của tất cả các thực thể có tên. Vấn đề này thường bị bỏ qua trong NER trong bài phát biểu [7, 4]; và một số đối phó với các đơn vị OOV bằng cách thích ứng vốn từ vựng và các mô hình ngôn ngữ để các Speci fi c khoảng thời gian tập kiểm tra [8]. Để nhận OOV NE, chúng tôi tăng thêm một tagger NE tiêu chuẩn bao gồm các tính năng chỉ định của các điều khoản OOV. Các tagger nên bỏ qua những lời giải mã cho các khu vực OOV và dựa vào ngữ cảnh để xác định các thực thể có tên. Ví dụ, nếu các tagger thấy chuỗi "cựu Tổng thống NHẤT CỦA CNTT NÓI" nó sẽ có khả năng fi ndnonamedentity. Tuy nhiên, "MOSTOFIT" isanob- lỗi vious phiên mã (cho "Milosevic") và nếu tagger biết "MOSTOFIT" wasOOV, itcouldfocusoncontext ("ngoại mer Tổng thống X nói") và xác định các âm thanh tương ứng với "X" như một thực thể có tên . OurworkissimilartothatofHuang [3] andSudohetal. [4] Huang sử dụng một con fi dence dựa trên cách tiếp cận để xác định lỗi bảng điểm và bỏ qua các chuỗi từ được giải mã trong các lỗi tôn lại, bằng cách sử dụng ngữ cảnh để truy vấn tài liệu liên quan cho OOV phục hồi. Văn bản Heusesfeaturesfromtherecoveredwordanditscon- như là đầu vào cho một hệ thống NER tiêu chuẩn. Trong tác phẩm này, chúng tôi quan tâm với identi fi cation và không phục hồi. Tuy nhiên, iden- ti fi ed thực thể có tên trong âm thanh sao chép không chính xác có thể được nhắm mục tiêu cho việc phục hồi sử dụng một hệ thống phục hồi OOV [9]. Cả hai Huang và Sudoh et al. dựa vào xác suất từ phía sau như một con fi dence mét. Sudoh et al. kết hợp các số liệu này với thedecodedwordsequenceandcontextualPOStaginformation sử dụng SVMs để phát hiện vùng không đáng tin cậy. Chúng tôi xem xét một cách tiếp cận tương tự (errordet) như là một cơ sở. Cách tiếp cận của chúng tôi sử dụng đầu ra của một máy dò OOV như dicative trong- của vùng Đông Bắc. Trong phần tiếp theo, chúng tôi giới thiệu tagger NE của chúng tôi và mô tả cách chúng tôi kết hợp thông tin OOV
đang được dịch, vui lòng đợi..