1.2 Methods of computational linguisticsThe methods employed in theore dịch - 1.2 Methods of computational linguisticsThe methods employed in theore Việt làm thế nào để nói

1.2 Methods of computational lingui

1.2 Methods of computational linguistics

The methods employed in theoretical and practical research in computational linguistics have often drawn upon theories and findings in theoretical linguistics, philosophical logic, cognitive science (especially psycholinguistics), and of course computer science. However, early work from the mid-1950s to around 1970 tended to be rather theory-neutral, the primary concern being the development of practical techniques for such applications as MT and simple QA. In MT, central issues were lexical structure and content, the characterization of “sublanguages” for particular domains (for example, weather reports), and the transduction from one language to another (for example, using rather ad hoc graph transformation grammars or transfer grammars). In QA, the concern was with characterizing the question patterns encountered in a specific domain, and the relationship of these question patterns to the forms in which answers might stored, for instance in a relational database.

By the mid-1960s a number of researchers emboldened by the increasing power and availability of general-purpose computers, and inspired by the dream of human-level artificial intelligence, were designing systems aimed at genuine language understanding and dialogue. The techniques and theoretical underpinnings employed varied greatly. An example of a program minimally dependent on linguistic or cognitive theory was Joseph Weizenbaum's ELIZA program, intended to emulate (or perhaps caricature) a Rogerian psychiatrist. ELIZA relied on matching user inputs to stored patterns (brief word sequences interspersed with numbered slots, to be filled from the input), and returned one of a set of output templates associated with the matched input pattern, instantiated with material from the input. While ELIZA and its modern chatbot descendants are often said to rely on mere trickery, it can be argued that human verbal behavior is to some degree reflexive in the manner of ELIZA, i.e., we function in “preprogrammed” or formulaic manner in certain situations, for example, in exchanging greetings, or in responding at a noisy party to comments whose contents, apart from an occasional word, eluded us.

A very different perspective on linguistic processing was proffered in the early years by researchers who took their cue from ideas about associative processes in the brain. For example,
M. Ross Quillian (1968) proposed a model of word sense disambiguation based on “spreading activation” in a network of concepts (typically corresponding to senses of nouns) interconnected through relational links (typically corresponding to senses of verbs or prepositions). Variants of this “semantic memory” model were pursued by researchers such as Rumelhart, Lindsay and Norman (1972), and remain as an active research paradigm in computational models of language and cognition. Another psychologically inspired line of work was initiated in the 1960s and pursued for over two decades by Roger Schank and his associates, but in his case the goal was full story understanding and inferential question answering. A central tenet of the work was that the representation of sentential meaning as well as world knowledge centered around a few (e.g.,
11) action primitives, and inference was driven by rules associated primarily with these primitives; (a prominent exponent of a similar view was Yorick Wilks). Perhaps the most important aspect of Schank's work was the recognition that language understanding and inference were heavily dependent on a large store of background knowledge, including knowledge of numerous “scripts” (prototypical ways in which familiar kinds of complex events, such as dining at a restaurant, unfold) and plans (prototypical ways in which people attempt to accomplish their goals) (Schank & Abelson 1977).

More purely AI-inspired approaches that also emerged in the 1960s were exemplified in systems such as Sad Sam (Lindsay 1963), Sir (Raphael 1968) and Student (Bobrow 1968). These featured devices such as pattern matching/transduction for analyzing and interpreting restricted subsets of English, knowledge in the form of relational hierarchies and attribute-value lists, and QA methods based on graph search, formal deduction protocols and numerical algebra. An influential idea that emerged slightly later was that knowledge in AI systems should be framed procedurally rather than declaratively—to know something is to be able to perform certain functions (Hewitt 1969). Two quite impressive systems that exemplified such a methodology were shrdlu (Winograd 1972) and Lunar (Woods et al. 1972), which contained sophisticated proceduralized grammars and syntax-to-semantics mapping rules, and were able to function fairly robustly in their “micro-domains” (simulated blocks on a table, and a lunar rock database, respectively). In addition, shrdlu featured significant planning abilities, enabled by the microplanner goal-chaining language (a precursor of Prolog). Difficulties that remained for all of these approaches were extending linguistic coverage and the reliability of parsing and interpretation, and most of all, moving from microdomains, or coverage of a few paragraphs of text, to more varied, broader domains. Much of the difficulty of scaling up was attributed to the “knowledge acquisition bottleneck”—the difficulty of coding or acquiring the myriad facts and rules evidently required for more general understanding. Classic collections containing several articles on the early work mentioned in the last two paragraphs are Marvin Minsky's Semantic Information Processing (1968) and Schank and Colby's Computer Models of Thought and Language (1973).

Since the 1970s, there has been a gradual trend away from purely procedural approaches to ones aimed at encoding the bulk of linguistic and world knowledge in more understandable, modular, re-usable forms, with firmer theoretical foundations. This trend was enabled by the emergence of comprehensive syntactico-semantic frameworks such as Generalized Phrase Structure Grammar (GPSG), Head-driven Phrase Structure Grammar (HPSG), Lexical-Functional Grammar (LFG),

Tree-Adjoining Grammar (TAG), and Combinatory Categorial Grammar (CCG), where in each case close theoretical attention was paid both to the computational tractability of parsing, and the mapping from syntax to semantics. Among the most important developments in the latter area were Richard Montague's profound insights into the logical (especially intensional) semantics of language, and Hans Kamp's and Irene Heim's development of Discourse Representation Theory (DRT), offering a systematic, semantically formal account of anaphora in language.

A major shift in nearly all aspects of natural language processing began in the late 1980s and was virtually complete by the end of 1995: this was the shift to corpus-based, statistical approaches (signalled for instance by the appearance of two special issues on the subject by the quarterly Computational Linguistics in 1993). The new paradigm was enabled by the increasing availability and burgeoning volume of machine-readable text and speech data, and was driven forward by the growing awareness of the importance of the distributional properties of language, the development of powerful new statistically based learning techniques, and the hope that these techniques would overcome the scalability problems that had beset computational linguistics (and more broadly AI) since its beginnings.

The corpus-based approach has indeed been quite successful in producing comprehensive, moderately accurate speech recognizers, part-of-speech (POS) taggers, parsers for learned probabilistic phrase-structure grammars, and even MT and text-based QA systems and summarization systems. However, semantic processing has been restricted to rather shallow aspects, such as extraction of specific data concerning specific kinds of events from text (e.g., location, date, perpetrators, victims, etc., of terrorist bombings) or extraction of clusters of argument types, relational tuples, or paraphrase sets from text corpora. Currently, the corpus- based, statistical approaches are still dominant, but there appears to be a growing movement towards integration of formal logical approaches to language with corpus-based statistical approaches in order to achieve deeper understanding and more intelligent behavior in language comprehension and dialogue systems. There are also efforts to combine connectionist and neural-net approaches with symbolic and logical ones. The following sections will elaborate on many of the topics touched on above. General references for computational linguistics are Allen 1995, Jurafsky and Martin 2009, and Clark et al. 2010.
0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
1.2 phương pháp của ngôn ngữ học tính toánPhương pháp làm việc trong nghiên cứu lý thuyết và thực tế trong ngôn ngữ học tính toán thường đã rút ra dựa trên lý thuyết và những phát hiện trong lý thuyết ngôn ngữ học, logic triết học, khoa học nhận thức (đặc biệt là psycholinguistics), và dĩ nhiên Khoa học máy tính. Tuy nhiên, đầu công việc từ giữa thập niên 1950 tới khoảng 1970 có xu hướng được khá lý thuyết trung lập, chủ đề chính là sự phát triển của các kỹ thuật thiết thực cho các ứng dụng như MT và bảo đảm chất lượng đơn giản. Ở MT, vấn đề Trung tâm là cơ cấu lexical và nội dung, các đặc tính của "sublanguages" cho các tên miền cụ thể (ví dụ, thời tiết báo cáo), và dẫn truyền từ một ngôn ngữ khác (ví dụ, bằng cách sử dụng đồ thị thay vì quảng cáo hoc chuyển đổi grammars hoặc chuyển grammars). Trong bảo đảm chất lượng, mối quan tâm là với characterizing những mẫu câu hỏi gặp phải trong một tên miền cụ thể, và mối quan hệ của các mô hình câu hỏi cho các hình thức trong đó câu trả lời có thể được lưu trữ, ví dụ trong một cơ sở dữ liệu quan hệ.Giữa những năm 1960, một số nhà nghiên cứu khuyến khích tin tưởng bởi sức mạnh ngày càng tăng và tính khả dụng của máy tính chung mục đích, và cảm hứng của ước mơ của con người-cấp độ trí tuệ nhân tạo, thiết kế hệ thống nhằm mục đích sự hiểu biết ngôn ngữ chính hãng và đối thoại. Các kỹ thuật và nền tảng lý thuyết làm việc khác nhau rất nhiều. Một ví dụ về một chương trình ít phụ thuộc vào ngôn ngữ hoặc nhận thức lý thuyết là chương trình ELIZA Joseph Weizenbaum, nhằm mục đích mô phỏng (hoặc có lẽ bức tranh biếm họa) một bác sĩ tâm thần Rogerian. ELIZA dựa trên phù hợp với đầu vào người dùng để lưu trữ mẫu (ngắn từ chuỗi xen kẽ với số khe cắm được lấp đầy từ đầu vào), và trở lại một trong một tập hợp các sản lượng mẫu liên kết với các mô hình đầu vào phù hợp, instantiated với các vật liệu từ các đầu vào. Trong khi ELIZA và các hậu duệ hiện đại chatbot thường được biết đến dựa vào trickery chỉ, nó có thể lập luận rằng hành vi bằng lời nói con người là đến một mức độ suy nghi theo cách của ELIZA, tức là, chúng tôi chức năng trong "preprogrammed" hoặc công thức cách trong tình huống nhất định, ví dụ, trong trao đổi lời chào hoặc đáp ứng tại một bữa tiệc ồn ào với ý kiến có nội dung, ngoài một chữ thường xuyên , lảng tránh cho chúng tôi. Một cái nhìn rất khác nhau về xử lý ngôn ngữ đã nêu trong những năm đầu của nhà nghiên cứu đã cue của họ từ những ý tưởng về quy trình kết hợp trong não. Ví dụ,M. Ross Quillian (1968) đã đề xuất một mô hình định hướng ý nghĩa từ dựa trên "lây lan kích hoạt" trong một mạng lưới các khái niệm (thông thường tương ứng với các giác quan của danh từ) nối liền với nhau thông qua quan hệ liên kết (thông thường tương ứng với các giác quan của giới từ hoặc động từ). Các biến thể của mô hình "ngữ nghĩa bộ nhớ" này đã được theo đuổi bởi các nhà nghiên cứu chẳng hạn như Rumelhart, Lindsay và Norman (1972), và biến thành một mô hình hoạt động nghiên cứu trong các mô hình tính toán của ngôn ngữ và nhận thức. Một tâm lý lấy cảm hứng từ dòng công việc được khởi xướng vào thập niên 1960 và theo đuổi trong hơn hai thập kỷ của Roger Schank và cộng sự của mình, nhưng trong trường hợp của ông mục đích là sự hiểu biết toàn bộ câu chuyện và trả lời các câu hỏi hồ. Một nguyên lý trung tâm của công việc là rằng các đại diện của sentential ý nghĩa và kiến thức thế giới tập trung xung quanh một vài (ví dụ:11) hành động nguyên thủy, và suy luận được thúc đẩy bởi quy tắc liên quan đến chủ yếu với các nguyên thủy; (một số mũ nổi bật của một cái nhìn tương tự như là Yorick rùa). Có lẽ các khía cạnh quan trọng nhất của công việc của Schank là sự công nhận rằng sự hiểu biết ngôn ngữ và suy luận là phụ thuộc nhiều vào một cửa hàng lớn của nền kiến thức, trong đó có kiến thức về rất nhiều "kịch bản" (nguyên mẫu cách trong đó quen thuộc các loại sự kiện phức tạp, chẳng hạn như ăn uống tại một nhà hàng, mở ra) và kế hoạch (nguyên mẫu cách mà mọi người cố gắng để đạt mục tiêu của họ) (Schank & Abelson năm 1977).Thêm hoàn toàn là AI-lấy cảm hứng từ phương pháp tiếp cận cũng nổi lên trong thập niên 1960 đã exemplified trong hệ thống chẳng hạn như buồn Sam (Lindsay 1963), Sir (Raphael 1968) và học sinh (Bobrow năm 1968). Các đặc trưng thiết bị như là mô hình phù hợp với/dẫn truyền với phân tích và giải thích các tập con bị giới hạn của các kiến thức tiếng Anh, trong hình thức quan hệ phân cấp và giá trị thuộc tính danh sách, và bảo đảm chất lượng phương pháp dựa trên đồ thị tìm, giao thức chính thức khấu trừ và số đại số. Một ý tưởng có ảnh hưởng nổi lên một chút sau đó là kiến thức trong hệ thống AI nên được đóng khung procedurally thay vì declaratively — để biết một cái gì đó là có thể thực hiện một số chức năng (Hewitt 1969). Hai hệ thống khá ấn tượng exemplified một phương pháp đã là shrdlu (Winograd 1972) và âm lịch (Woods et al. 1972), mà chứa tinh vi proceduralized grammars và quy tắc cú pháp, ngữ nghĩa lập bản đồ, và đã có thể chức năng khá đủ trong của họ "vi-tên miền" (mô phỏng khối trên một bảng, và một cơ sở dữ liệu âm nhạc rock, tương ứng). Ngoài ra, shrdlu đặc trưng đáng kể khả năng lập kế hoạch, kích hoạt bởi microplanner loạt mục tiêu ngôn ngữ (một tiền thân của Prolog). Những khó khăn mà vẫn cho tất cả các phương pháp tiếp cận mở rộng phạm vi bảo hiểm ngôn ngữ và độ tin cậy của phân tích và giải thích, và hầu hết tất cả, di chuyển từ microdomains, hoặc vùng phủ sóng của một vài đoạn văn bản, để thêm đa dạng, lĩnh vực rộng lớn hơn. Nhiều khó khăn rộng lên là do "kiến thức mua lại cổ chai" — những khó khăn của mã hóa hoặc có được vô số sự kiện và quy tắc rõ ràng yêu cầu cho sự hiểu biết tổng quát hơn. Cổ điển bộ sưu tập có nhiều bài viết về công việc ban đầu được đề cập trong đoạn cuối hai là Marvin Minsky ngữ nghĩa thông tin chế biến (1968) và Schank và Colby máy tính mô hình of Thought và ngôn ngữ (1973).Từ thập niên 1970, đã có một xu hướng dần dần đi từ phương pháp tiếp cận hoàn toàn là thủ tục cho những người nhằm mục đích mã hóa hàng loạt của ngôn ngữ và kiến thức thế giới trong các hình thức dễ hiểu hơn, mô-đun, tái sử dụng, với cơ sở vững chắc hơn lý thuyết. Xu hướng này đã được kích hoạt bởi sự xuất hiện của các khuôn khổ toàn diện syntactico ngữ nghĩa như tổng quát cụm từ cấu trúc ngữ pháp (GPSG), thúc đẩy đầu cụm từ cấu trúc ngữ pháp (HPSG), Lexical chức năng ngữ pháp (LFG), Vị trí cây ngữ pháp (từ khóa), và Combinatory Categorial ngữ pháp (CCG), nơi trong mỗi trường hợp đóng thuyết chú được cả hai để tính toán tractability của phân tích, và ánh xạ từ cú pháp ngữ nghĩa. Trong số những phát triển quan trọng nhất trong khu vực thứ hai là Richard Montague của cái nhìn sâu sắc vào hợp lý ngữ nghĩa (đặc biệt là intensional) của ngôn ngữ, và Hans Kamp và Irene Heim phát triển của Discourse đại diện lý thuyết (DRT), cung cấp một tài khoản có hệ thống, ngữ nghĩa chính thức của anaphora trong ngôn ngữ.Một sự thay đổi lớn trong gần như tất cả các khía cạnh của xử lý ngôn ngữ tự nhiên bắt đầu vào cuối thập niên 1980 và đã hầu như hoàn thành vào cuối năm 1995: đây là chuyển sang cách tiếp cận dựa trên corpus, thống kê (báo hiệu ví dụ bởi sự xuất hiện của hai vấn đề đặc biệt về đối tượng của ngôn ngữ học tính toán hàng quý năm 1993). Các mô hình mới đã được kích hoạt bởi tình trạng sẵn có ngày càng tăng và các khối lượng đang phát triển của máy có thể đọc văn bản và dữ liệu bài phát biểu, và bị đẩy về phía trước bằng cách phát triển nhận thức về tầm quan trọng của các thuộc tính distributional của ngôn ngữ, sự phát triển của mạnh mẽ mới ý nghĩa thống kê dựa trên kỹ thuật học tập, và hy vọng rằng các kỹ thuật này sẽ khắc phục các vấn đề khả năng mở rộng có bao vây ngôn ngữ học tính toán (và rộng hơn AI) kể từ khởi đầu của nó.Corpus dựa trên phương pháp tiếp cận thực sự đã khá thành công trong sản xuất toàn diện, bài phát biểu chính xác vừa phải recognizers, một phần của bài phát biểu (POS) taggers, parsers cho học xác suất cấu trúc cụm từ grammars, và thậm chí MT và hệ thống bảo đảm chất lượng dựa trên văn bản và hệ thống tổng hợp. Tuy nhiên, ngữ nghĩa chế biến đã được giới hạn trong khía cạnh thay vì nông, chẳng hạn như khai thác dữ liệu cụ thể liên quan đến các loại cụ thể của các sự kiện từ văn bản (ví dụ như, vị trí, ngày, thủ phạm, nạn nhân, vv, của vụ đánh bom khủng bố) hoặc khai thác các cụm của các loại đối số, quan hệ tuples hoặc diễn giải bộ từ văn bản corpora. Hiện nay, các corpus-dựa, thống kê các phương pháp tiếp cận là vẫn chiếm ưu thế, nhưng dường như là một phong trào lớn hướng tới hội nhập của cách tiếp cận hợp lý chính thức để ngôn ngữ với corpus dựa trên phương pháp tiếp cận thống kê để đạt được sự hiểu biết sâu hơn và thông minh hơn hành vi trong ngôn ngữ hiểu và đối thoại hệ thống. Cũng đang cố gắng kết hợp việc và phương pháp tiếp cận thần kinh mạng lưới với những người mang tính biểu tượng và hợp lý. Phần sau đây sẽ xây dựng trên nhiều người trong số các chủ đề đề cập đến ở trên. Tài liệu tham khảo chung cho ngôn ngữ học tính toán là Allen 1995, Jurafsky và Martin 2009, và Clark và ctv 2010.
đang được dịch, vui lòng đợi..
Kết quả (Việt) 2:[Sao chép]
Sao chép!
1.2 Các phương pháp của ngôn ngữ học tính toán Các phương pháp sử dụng trong nghiên cứu lý thuyết và thực tế trong ngôn ngữ học tính toán đã thường được vẽ trên các lý thuyết và những phát hiện trong ngôn ngữ học lý thuyết, logic triết học, khoa học nhận thức (đặc biệt là Học Tâm Lý), và các khóa học khoa học máy tính. Tuy nhiên, công tác đầu từ giữa những năm 1950 đến khoảng năm 1970 có xu hướng được khá thuyết trung lập, mối quan tâm chính là sự phát triển của kỹ thuật thiết thực cho các ứng dụng như MT và QA đơn giản. Trong MT, vấn đề trọng tâm là cơ cấu từ vựng và nội dung, đặc điểm của "sublanguages" cho các lĩnh vực cụ thể (ví dụ, báo cáo thời tiết), và việc dẫn truyền từ một ngôn ngữ khác (ví dụ, bằng cách sử dụng chứ không phải quảng cáo hoc ngữ pháp đồ thị biến đổi hoặc văn phạm tiếng chuyển ). Trong QA, mối quan tâm là với việc mô tả các mẫu câu hỏi gặp phải trong một lĩnh vực cụ thể, và mối quan hệ của các mẫu câu hỏi để các hình thức trong đó trả lời sức lưu trữ, ví dụ trong một cơ sở dữ liệu quan hệ. Đến giữa những năm 1960 một số nhà nghiên cứu khuyến khích do tăng công suất và tính sẵn sàng của các máy tính mục đích chung, và lấy cảm hứng từ những giấc mơ của trí tuệ nhân tạo nhân lực trình độ, được thiết kế các hệ thống nhằm mục đích hiểu biết ngôn ngữ chính hãng và đối thoại. Các kỹ thuật và cơ sở lý thuyết có việc làm thay đổi rất lớn. Một ví dụ về một chương trình tối thiểu phụ thuộc vào lý thuyết ngôn ngữ hoặc nhận thức là chương trình ELIZA Joseph Weizenbaum của, nhằm thi đua (hoặc có lẽ bức tranh biếm họa) một bác sĩ tâm thần Rogerian. ELIZA dựa trên đầu vào phù hợp với người sử dụng để mô hình lưu trữ (các chuỗi từ ngắn xen kẽ với các khe đánh số, sẽ được điền từ đầu vào), và trở về một trong một tập hợp các đầu ra mẫu kết hợp với mô hình đầu vào phù hợp, khởi tạo với chất liệu từ đầu vào. Trong khi ELIZA và con cháu chatbot hiện đại của nó thường được nói đến dựa trên chỉ thủ đoạn gian trá, nó có thể được lập luận rằng hành vi lời nói của con người là một mức độ nào phản thân theo cách của Eliza, tức là, chúng ta hoạt động trong "lập trình sẵn" hoặc cách tính công thức trong các tình huống nhất định, Ví dụ, trong việc trao đổi lời chúc mừng, hoặc trong việc đáp ứng tại một bữa tiệc ồn ào để bình luận có nội dung, ngoài một từ thường xuyên, lẩn tránh chúng ta. Một quan điểm rất khác nhau về xử lý ngôn ngữ đã được chìa trong những năm đầu của các nhà nghiên cứu đã lấy được tín hiệu từ những ý tưởng về các quá trình liên kết trong não. Ví dụ, M. Ross Quillian (1968) đề xuất một mô hình ý nghĩa từ định hướng dựa trên "truyền bá kích hoạt" trong một mạng lưới các khái niệm (thường tương ứng với giác quan của danh từ) kết nối với nhau thông qua liên kết quan hệ (thường tương ứng với giác quan của động từ hoặc giới từ). Các biến thể của mô hình này "bộ nhớ ngữ nghĩa" đã được theo đuổi bởi các nhà nghiên cứu như Rumelhart, Lindsay và Norman (1972), và vẫn còn là một mô hình nghiên cứu hoạt động trong mô hình tính toán của ngôn ngữ và nhận thức. Một dòng tâm lý lấy cảm hứng làm việc đã được khởi xướng vào năm 1960 và theo đuổi trong hơn hai thập kỷ bởi Roger Schank và các cộng sự của mình, nhưng trong trường hợp của mình mục tiêu là sự hiểu biết toàn bộ câu chuyện và suy luận câu hỏi trả lời. Một nguyên lý trung tâm của tác phẩm là sự thể hiện ý nghĩa sentential cũng như kiến thức thế giới tập trung vào một số ít (ví dụ, 11) nguyên thủy hành động, và suy luận đã được thúc đẩy bởi các quy tắc liên quan đến chủ yếu với những nguyên thủy; (một số mũ nổi bật của một cái nhìn tương tự là Yorick Wilks). Có lẽ khía cạnh quan trọng nhất của công việc Schank là sự thừa nhận rằng sự hiểu biết ngôn ngữ và suy luận là phụ thuộc nhiều vào một cửa hàng lớn của kiến thức nền tảng, bao gồm cả kiến thức của nhiều "kịch bản" (cách điển hình trong đó các loại quen thuộc của các sự kiện phức tạp, chẳng hạn như ăn uống tại một nhà hàng, mở ra) và kế hoạch (cách điển hình trong đó mọi người cố gắng thực hiện mục tiêu của mình) (Schank & Abelson 1977). hoàn toàn khác cách tiếp cận mà cũng nổi lên trong những năm 1960 đã được minh họa trong các hệ thống như Sad Sam (Lindsay 1963 AI lấy cảm hứng), Sir (Raphael 1968) và Student (Bobrow 1968). Những thiết bị đặc trưng như mô hình kết hợp / dẫn truyền để phân tích và giải thích các tập con hạn chế về tiếng Anh, kiến thức trong các hình thức phân cấp quan hệ và danh sách thuộc tính-giá trị, và các phương pháp bảo đảm chất lượng dựa trên tìm kiếm đồ thị, giao thức khấu trừ chính thức và đại số số. Một ý tưởng có ảnh hưởng nổi lên một chút sau đó là kiến thức trong các hệ thống AI phải được đóng khung procedurally chứ không phải khai báo để biết điều gì đó là có thể thực hiện các chức năng nhất định (Hewitt 1969). Hai hệ thống khá ấn tượng đó được minh chứng một phương pháp luận là shrdlu (Winograd 1972) và âm lịch (Woods et al. 1972), trong đó có tinh vi văn phạm tiếng proceduralized và quy tắc ánh xạ cú pháp-to-ngữ nghĩa, và đã có thể hoạt động khá mạnh mẽ trong "vi của họ -domains "(khối mô phỏng trên một bảng, và một cơ sở dữ liệu đá mặt trăng, tương ứng). Ngoài ra, khả năng lập kế hoạch shrdlu đặc trưng quan trọng, được kích hoạt bởi các ngôn ngữ microplanner mục tiêu xâu chuỗi (một tiền chất của Prolog). Khó khăn mà vẫn cho tất cả các phương pháp này đã được mở rộng phạm vi ngôn ngữ và độ tin cậy của việc phân tích, giải thích, và hầu hết tất cả, di chuyển từ microdomains, hoặc bảo hiểm của một vài đoạn văn bản, để đa dạng hơn, lĩnh vực rộng lớn hơn. Nhiều khó khăn trong việc mở rộng quy mô được cho là do "kiến thức mua lại cổ chai" -the khó khăn trong việc mã hóa hoặc mua vô số các sự kiện và các quy tắc rõ ràng cần thiết cho sự hiểu biết tổng quát hơn. Bộ sưu tập cổ điển có chứa nhiều bài báo về các tác phẩm đầu được đề cập trong hai đoạn văn cuối cùng là Semantic Information Processing Marvin Minsky (1968) và Schank và Colby của mô hình máy tính của duy và ngôn ngữ (1973). Từ những năm 1970, đã có một xu hướng dần dần xa phương pháp tiếp cận hoàn toàn thủ tục để nhằm vào những mã hóa phần lớn các kiến thức ngôn ngữ và thế giới hiểu hơn, mô-đun, các hình thức tái sử dụng được, với nền tảng lý thuyết vững chắc hơn. Xu hướng này đã được kích hoạt bởi sự xuất hiện của các khuôn khổ syntactico-ngữ nghĩa toàn diện như Generalized cấu Phrase Grammar (GPSG), Head-driven cấu Phrase Grammar (HPSG), Lexical-Functional Grammar (LFG), Tree-liền kề Grammar (TAG), và combinatory Categorial Grammar (CCG), nơi mà trong mỗi trường hợp quan tâm chặt chẽ lý thuyết đã được trả cả để dễ kiểm soát các tính toán của các phân tích cú pháp, và các bản đồ từ cú pháp ngữ nghĩa. Trong số những phát triển quan trọng nhất trong khu vực sau này là những hiểu biết Richard Montague sâu sắc vào hợp lý (đặc biệt là intensional) ngữ nghĩa của ngôn ngữ, và Hans Kamp và phát triển của Discourse Đại diện Theory (DRT) Irene Heim, cung cấp một cách có hệ thống, tài khoản của ngữ nghĩa chính thức của Anaphora trong . ngôn ngữ Một sự thay đổi lớn trong gần như tất cả các khía cạnh của xử lý ngôn ngữ tự nhiên bắt đầu vào cuối năm 1980 và hầu như hoàn thành vào cuối năm 1995: đây là sự thay đổi để, phương pháp tiếp cận thống kê corpus dựa trên (hiệu cho dụ bởi sự xuất hiện của hai vấn đề đặc biệt về chủ đề của ngôn ngữ học tính toán hàng quý năm 1993). Các mô hình mới đã được kích hoạt bởi sự sẵn có ngày càng tăng và khối lượng đang phát triển của văn bản và lời nói dữ liệu máy có thể đọc được, và bị đẩy về phía trước bởi những nhận thức ngày càng tăng về tầm quan trọng của tính chất phân phối của ngôn ngữ, sự phát triển của kỹ thuật học tập mới mạnh mẽ dựa trên thống kê và hy vọng rằng những kỹ thuật này sẽ khắc phục vấn đề khả năng mở rộng mà đã bao vây ngôn ngữ học tính toán (và rộng hơn là AI) kể từ khi khởi đầu của nó. Cách tiếp cận corpus dựa trên thực tế đã khá thành công trong sản xuất toàn diện, recognizers bài phát biểu vừa phải chính xác, một phần-of-speech ( POS) miếng sắt mõng, phân tích cú pháp cho học ngữ pháp xác suất cụm từ cấu trúc, và thậm chí cả MT và các hệ thống bảo đảm chất lượng dựa trên văn bản và hệ thống tổng hợp. Tuy nhiên, xử lý ngữ nghĩa đã được hạn chế đến các khía cạnh khá nông, chẳng hạn như khai thác các dữ liệu cụ thể liên quan đến các loại cụ thể của sự kiện từ văn bản (ví dụ, địa điểm, ngày, thủ phạm, nạn nhân, vv, các vụ đánh bom khủng bố) hoặc khai thác các cụm của các loại đối số , các bộ quan hệ, hoặc bộ diễn giải từ corpora văn bản. Hiện nay, các corpus- dựa, phương pháp tiếp cận thống kê vẫn còn chiếm ưu thế, nhưng dường như có một phong trào đang phát triển theo hướng tích hợp các cách tiếp cận hợp lý chính thức để ngôn ngữ với các phương pháp thống kê corpus-based để đạt được sự hiểu biết sâu sắc hơn và hành vi thông minh hơn trong hiểu ngôn ngữ và đối thoại hệ thống. Ngoài ra còn có những nỗ lực để kết hợp các phương pháp kết nối và nhiều thần kinh-net với những biểu tượng và hợp lý. Các phần dưới đây sẽ xây dựng trên nhiều chủ đề chạm vào phía trên. Tài liệu tham khảo chung cho ngôn ngữ học tính toán là Allen năm 1995, Jurafsky và Martin năm 2009, và Clark et al. Năm 2010.


















đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2024 I Love Translation. All reserved.

E-mail: