Trong chương này, chúng ta xem xét cách tiếp cận corpus dựa trên sự hiểu biết ngôn ngữ. Một corpus (số nhiều corpora) là một bộ sưu tập lớn các văn bản, chẳng hạn như hàng tỷ trang web mà làm lên World Wide Web. Văn bản được viết bởi và cho con người, và nhiệm vụ của phần mềm là để làm cho nó dễ dàng hơn cho con người để tìm ra thông tin đúng. Cách tiếp cận này bao hàm việc sử dụng số liệu thống kê và học tập để tận dụng lợi thế của corpus, và nó thường đòi hỏi xác suất mô hình ngôn ngữ có thể học được từ dữ liệu và đó là đơn giản hơn so với DCG augmented của Chương 22. Đối với hầu hết các nhiệm vụ, khối lượng dữ liệu nhiều hơn hơn làm cho các đơn giản mô hình ngôn ngữ. Chúng tôi sẽ xem xét ba nhiệm vụ cụ thể: tìm kiếm thông tin (Mục 23.2), khai thác thông tin (Mục 23.3), và bản dịch máy (mục 23.4). Nhưng trước tiên, chúng tôi trình bày tổng quan về mô hình ngôn ngữ xác suất.
đang được dịch, vui lòng đợi..
