2.1 Các hệ thống phân cấp cấu trúc ngôn ngữ có cấu trúc ở nhiều cấp độ, bắt đầu trong trường hợp ngôn ngữ nói với các mẫu trong các tín hiệu âm thanh có thể được ánh xạ tới điện thoại (những âm thanh liên tiếp riêng biệt của những ngôn ngữ được xây dựng). Nhóm của điện thoại mà là tương đương với một ngôn ngữ nhất định (không ảnh hưởng đến những lời công nhận bởi một người nghe, nếu thay đổi cho nhau) là những âm vị của ngôn ngữ. Các âm vị lần lượt là thành phần của hình vị (đoạn từ có ý nghĩa tối thiểu), và các cung cấp thành phần cấu tạo của từ. (Trong ngôn ngữ viết có ai đó nói thay vì nhân vật, graphemes, âm tiết, và lời nói.) Từ ngữ được nhóm lại thành cụm từ, chẳng hạn như cụm danh từ, cụm động từ, cụm tính từ và cụm giới từ, đó là những thành phần cấu trúc của câu, thể hiện những suy nghĩ hoàn toàn. Ở mức độ vẫn cao, chúng tôi có các loại khác nhau của cấu trúc luận, mặc dù điều này là thường lỏng hơn so với cấu trúc cấp thấp hơn. Kỹ thuật đã được phát triển để phân tích ngôn ngữ ở tất cả các cấp độ cấu trúc, mặc dù hạn chế không gian sẽ không cho phép một cuộc thảo luận nghiêm túc của các phương pháp sử dụng dưới đây cấp độ từ. Cần lưu ý, tuy nhiên, các kỹ thuật phát triển cho nhận dạng giọng nói trong những năm 1980 và 1990 là rất có ảnh hưởng trong việc biến nghiên cứu NLP về phía corpus dựa trên phương pháp thống kê mới nói trên. Một ý tưởng chính là các mô hình Markov ẩn (HMMs), trong đó mô hình chuỗi "ồn ào" (ví dụ, trình tự điện thoại, chuỗi âm vị, hoặc các trình tự từ) như thể tạo ra xác suất bằng cách "ẩn" các quốc gia cơ bản và quá trình chuyển đổi của họ. Cá nhân hoặc theo nhóm, các trạng thái ẩn liên tiếp mô hình trừu tượng hơn, thành phần cấp cao hơn để được chiết xuất từ các chuỗi ồn ào quan sát, chẳng hạn như âm vị từ điện thoại, từ từ âm vị, hoặc các bộ phận của lời nói từ từ. Xác suất thế hệ và các xác suất chuyển trạng thái là thông số của mô hình như vậy, và quan trọng này có thể được rút ra từ dữ liệu huấn luyện. Sau đó các mô hình có thể được áp dụng có hiệu quả vào việc phân tích các dữ liệu mới, sử dụng các thuật toán lập trình nhanh năng động như các thuật toán Viterbi. Những kỹ thuật này khá thành công sau đó đã được khái quát hóa cho cấu trúc cấp cao hơn, sớm ảnh hưởng đến mọi khía cạnh về NLP.
đang được dịch, vui lòng đợi..