Xác suất NGÔN NGỮ CHẾ
Trong đó chúng ta thấy cách đơn giản, mô hình ngôn ngữ đã được thống kê có thể được sử dụng để xử lý các bộ sưu tập của hàng triệu từ, chứ không phải chỉ là câu duy nhất.
Trong chương 22, chúng ta thấy làm thế nào một tác nhân có thể giao tiếp với các đại lý khác (người hoặc phần mềm) , sử dụng những phát biểu trong một ngôn ngữ chung. Toàn bộ phân tích cú pháp và ngữ nghĩa của lời phát biểu là cần thiết để trích xuất ý nghĩa đầy những lời lẽ, và có thể vì các lời phát biểu ngắn gọn và giới hạn trong một lĩnh vực hạn chế.
(CORPUS-DỰA) Trong chương này, chúng ta xem xét cách tiếp cận corpus dựa trên để hiểu biết ngôn ngữ. Một corpus (số nhiều corpora) là một bộ sưu tập lớn các văn bản, chẳng hạn như hàng tỷ các trang tạo nên World Wide Web. Văn bản được viết bởi và cho con người, và nhiệm vụ của phần mềm là để làm cho nó dễ dàng hơn cho con người để tìm ra thông tin đúng. Cách tiếp cận này bao hàm việc sử dụng số liệu thống kê và học tập để tận dụng lợi thế của corpus, và nó thường đòi hỏi mô hình ngôn ngữ xác suất có thể học được từ dữ liệu và đó là đơn giản hơn so với DCG augmented của Chương 22. Đối với hầu hết các nhiệm vụ, khối lượng dữ liệu nhiều hơn hơn làm cho các mô hình ngôn ngữ đơn giản. Chúng tôi sẽ xem xét ba nhiệm vụ cụ thể: tìm kiếm thông tin (Mục 23.2), khai thác thông tin (Mục 23.3), và bản dịch máy (mục 23.4). Nhưng trước tiên chúng tôi trình bày tổng quan về mô hình ngôn ngữ xác suất.
đang được dịch, vui lòng đợi..
