1.2 phương pháp của ngôn ngữ học tính toánPhương pháp làm việc trong nghiên cứu lý thuyết và thực tế trong ngôn ngữ học tính toán thường đã rút ra dựa trên lý thuyết và những phát hiện trong lý thuyết ngôn ngữ học, logic triết học, khoa học nhận thức (đặc biệt là psycholinguistics), và dĩ nhiên Khoa học máy tính. Tuy nhiên, đầu công việc từ giữa thập niên 1950 tới khoảng 1970 có xu hướng được khá lý thuyết trung lập, chủ đề chính là sự phát triển của các kỹ thuật thiết thực cho các ứng dụng như MT và bảo đảm chất lượng đơn giản. Ở MT, vấn đề Trung tâm là cơ cấu lexical và nội dung, các đặc tính của "sublanguages" cho các tên miền cụ thể (ví dụ, thời tiết báo cáo), và dẫn truyền từ một ngôn ngữ khác (ví dụ, bằng cách sử dụng đồ thị thay vì quảng cáo hoc chuyển đổi grammars hoặc chuyển grammars). Trong bảo đảm chất lượng, mối quan tâm là với characterizing những mẫu câu hỏi gặp phải trong một tên miền cụ thể, và mối quan hệ của các mô hình câu hỏi cho các hình thức trong đó câu trả lời có thể được lưu trữ, ví dụ trong một cơ sở dữ liệu quan hệ.Giữa những năm 1960, một số nhà nghiên cứu khuyến khích tin tưởng bởi sức mạnh ngày càng tăng và tính khả dụng của máy tính chung mục đích, và cảm hứng của ước mơ của con người-cấp độ trí tuệ nhân tạo, thiết kế hệ thống nhằm mục đích sự hiểu biết ngôn ngữ chính hãng và đối thoại. Các kỹ thuật và nền tảng lý thuyết làm việc khác nhau rất nhiều. Một ví dụ về một chương trình ít phụ thuộc vào ngôn ngữ hoặc nhận thức lý thuyết là chương trình ELIZA Joseph Weizenbaum, nhằm mục đích mô phỏng (hoặc có lẽ bức tranh biếm họa) một bác sĩ tâm thần Rogerian. ELIZA dựa trên phù hợp với đầu vào người dùng để lưu trữ mẫu (ngắn từ chuỗi xen kẽ với số khe cắm được lấp đầy từ đầu vào), và trở lại một trong một tập hợp các sản lượng mẫu liên kết với các mô hình đầu vào phù hợp, instantiated với các vật liệu từ các đầu vào. Trong khi ELIZA và các hậu duệ hiện đại chatbot thường được biết đến dựa vào trickery chỉ, nó có thể lập luận rằng hành vi bằng lời nói con người là đến một mức độ suy nghi theo cách của ELIZA, tức là, chúng tôi chức năng trong "preprogrammed" hoặc công thức cách trong tình huống nhất định, ví dụ, trong trao đổi lời chào hoặc đáp ứng tại một bữa tiệc ồn ào với ý kiến có nội dung, ngoài một chữ thường xuyên , lảng tránh cho chúng tôi. Một cái nhìn rất khác nhau về xử lý ngôn ngữ đã nêu trong những năm đầu của nhà nghiên cứu đã cue của họ từ những ý tưởng về quy trình kết hợp trong não. Ví dụ,M. Ross Quillian (1968) đã đề xuất một mô hình định hướng ý nghĩa từ dựa trên "lây lan kích hoạt" trong một mạng lưới các khái niệm (thông thường tương ứng với các giác quan của danh từ) nối liền với nhau thông qua quan hệ liên kết (thông thường tương ứng với các giác quan của giới từ hoặc động từ). Các biến thể của mô hình "ngữ nghĩa bộ nhớ" này đã được theo đuổi bởi các nhà nghiên cứu chẳng hạn như Rumelhart, Lindsay và Norman (1972), và biến thành một mô hình hoạt động nghiên cứu trong các mô hình tính toán của ngôn ngữ và nhận thức. Một tâm lý lấy cảm hứng từ dòng công việc được khởi xướng vào thập niên 1960 và theo đuổi trong hơn hai thập kỷ của Roger Schank và cộng sự của mình, nhưng trong trường hợp của ông mục đích là sự hiểu biết toàn bộ câu chuyện và trả lời các câu hỏi hồ. Một nguyên lý trung tâm của công việc là rằng các đại diện của sentential ý nghĩa và kiến thức thế giới tập trung xung quanh một vài (ví dụ:11) hành động nguyên thủy, và suy luận được thúc đẩy bởi quy tắc liên quan đến chủ yếu với các nguyên thủy; (một số mũ nổi bật của một cái nhìn tương tự như là Yorick rùa). Có lẽ các khía cạnh quan trọng nhất của công việc của Schank là sự công nhận rằng sự hiểu biết ngôn ngữ và suy luận là phụ thuộc nhiều vào một cửa hàng lớn của nền kiến thức, trong đó có kiến thức về rất nhiều "kịch bản" (nguyên mẫu cách trong đó quen thuộc các loại sự kiện phức tạp, chẳng hạn như ăn uống tại một nhà hàng, mở ra) và kế hoạch (nguyên mẫu cách mà mọi người cố gắng để đạt mục tiêu của họ) (Schank & Abelson năm 1977).Thêm hoàn toàn là AI-lấy cảm hứng từ phương pháp tiếp cận cũng nổi lên trong thập niên 1960 đã exemplified trong hệ thống chẳng hạn như buồn Sam (Lindsay 1963), Sir (Raphael 1968) và học sinh (Bobrow năm 1968). Các đặc trưng thiết bị như là mô hình phù hợp với/dẫn truyền với phân tích và giải thích các tập con bị giới hạn của các kiến thức tiếng Anh, trong hình thức quan hệ phân cấp và giá trị thuộc tính danh sách, và bảo đảm chất lượng phương pháp dựa trên đồ thị tìm, giao thức chính thức khấu trừ và số đại số. Một ý tưởng có ảnh hưởng nổi lên một chút sau đó là kiến thức trong hệ thống AI nên được đóng khung procedurally thay vì declaratively — để biết một cái gì đó là có thể thực hiện một số chức năng (Hewitt 1969). Hai hệ thống khá ấn tượng exemplified một phương pháp đã là shrdlu (Winograd 1972) và âm lịch (Woods et al. 1972), mà chứa tinh vi proceduralized grammars và quy tắc cú pháp, ngữ nghĩa lập bản đồ, và đã có thể chức năng khá đủ trong của họ "vi-tên miền" (mô phỏng khối trên một bảng, và một cơ sở dữ liệu âm nhạc rock, tương ứng). Ngoài ra, shrdlu đặc trưng đáng kể khả năng lập kế hoạch, kích hoạt bởi microplanner loạt mục tiêu ngôn ngữ (một tiền thân của Prolog). Những khó khăn mà vẫn cho tất cả các phương pháp tiếp cận mở rộng phạm vi bảo hiểm ngôn ngữ và độ tin cậy của phân tích và giải thích, và hầu hết tất cả, di chuyển từ microdomains, hoặc vùng phủ sóng của một vài đoạn văn bản, để thêm đa dạng, lĩnh vực rộng lớn hơn. Nhiều khó khăn rộng lên là do "kiến thức mua lại cổ chai" — những khó khăn của mã hóa hoặc có được vô số sự kiện và quy tắc rõ ràng yêu cầu cho sự hiểu biết tổng quát hơn. Cổ điển bộ sưu tập có nhiều bài viết về công việc ban đầu được đề cập trong đoạn cuối hai là Marvin Minsky ngữ nghĩa thông tin chế biến (1968) và Schank và Colby máy tính mô hình of Thought và ngôn ngữ (1973).Từ thập niên 1970, đã có một xu hướng dần dần đi từ phương pháp tiếp cận hoàn toàn là thủ tục cho những người nhằm mục đích mã hóa hàng loạt của ngôn ngữ và kiến thức thế giới trong các hình thức dễ hiểu hơn, mô-đun, tái sử dụng, với cơ sở vững chắc hơn lý thuyết. Xu hướng này đã được kích hoạt bởi sự xuất hiện của các khuôn khổ toàn diện syntactico ngữ nghĩa như tổng quát cụm từ cấu trúc ngữ pháp (GPSG), thúc đẩy đầu cụm từ cấu trúc ngữ pháp (HPSG), Lexical chức năng ngữ pháp (LFG), Vị trí cây ngữ pháp (từ khóa), và Combinatory Categorial ngữ pháp (CCG), nơi trong mỗi trường hợp đóng thuyết chú được cả hai để tính toán tractability của phân tích, và ánh xạ từ cú pháp ngữ nghĩa. Trong số những phát triển quan trọng nhất trong khu vực thứ hai là Richard Montague của cái nhìn sâu sắc vào hợp lý ngữ nghĩa (đặc biệt là intensional) của ngôn ngữ, và Hans Kamp và Irene Heim phát triển của Discourse đại diện lý thuyết (DRT), cung cấp một tài khoản có hệ thống, ngữ nghĩa chính thức của anaphora trong ngôn ngữ.Một sự thay đổi lớn trong gần như tất cả các khía cạnh của xử lý ngôn ngữ tự nhiên bắt đầu vào cuối thập niên 1980 và đã hầu như hoàn thành vào cuối năm 1995: đây là chuyển sang cách tiếp cận dựa trên corpus, thống kê (báo hiệu ví dụ bởi sự xuất hiện của hai vấn đề đặc biệt về đối tượng của ngôn ngữ học tính toán hàng quý năm 1993). Các mô hình mới đã được kích hoạt bởi tình trạng sẵn có ngày càng tăng và các khối lượng đang phát triển của máy có thể đọc văn bản và dữ liệu bài phát biểu, và bị đẩy về phía trước bằng cách phát triển nhận thức về tầm quan trọng của các thuộc tính distributional của ngôn ngữ, sự phát triển của mạnh mẽ mới ý nghĩa thống kê dựa trên kỹ thuật học tập, và hy vọng rằng các kỹ thuật này sẽ khắc phục các vấn đề khả năng mở rộng có bao vây ngôn ngữ học tính toán (và rộng hơn AI) kể từ khởi đầu của nó.The corpus-based approach has indeed been quite successful in producing comprehensive, moderately accurate speech recognizers, part-of-speech (POS) taggers, parsers for learned probabilistic phrase-structure grammars, and even MT and text-based QA systems and summarization systems. However, semantic processing has been restricted to rather shallow aspects, such as extraction of specific data concerning specific kinds of events from text (e.g., location, date, perpetrators, victims, etc., of terrorist bombings) or extraction of clusters of argument types, relational tuples, or paraphrase sets from text corpora. Currently, the corpus- based, statistical approaches are still dominant, but there appears to be a growing movement towards integration of formal logical approaches to language with corpus-based statistical approaches in order to achieve deeper understanding and more intelligent behavior in language comprehension and dialogue systems. There are also efforts to combine connectionist and neural-net approaches with symbolic and logical ones. The following sections will elaborate on many of the topics touched on above. General references for computational linguistics are Allen 1995, Jurafsky and Martin 2009, and Clark et al. 2010.
đang được dịch, vui lòng đợi..