sublinear"Heaps' luật [2] cũng có thể được áp dụng trong characterizing xử lý ngôn ngữ tự nhiên, theo đó kích thước từ vựng phát triển trong một chức năng sublinear với tài liệu kích thước, nói với, nơi biểu thị tổng số từ và là một số khác biệt từ. Một thành phần gây ra một sự tăng trưởng sublinear có thể nhớ và bursty bản chất của con người ngôn ngữ [23]-[25]. Một hiện tượng thú vị cụ thể là cùng tồn tại của Zipf của pháp luật và pháp luật Heaps'. Gelbukh và Sidorov [26] quan sát những luật hai trong văn bản tiếng Anh, tiếng Nga và tiếng Tây Ban Nha, với các số mũ khác nhau tùy thuộc vào ngôn ngữ. Kết quả tương tự gần đây đã được báo cáo cho các văn thể web văn bản [27], bao gồm cả cơ sở dữ liệu ngành, các thư viện mở và Wikipedia tiếng Anh. Bên cạnh các regularities thống kê của văn bản, kết quả là lần xuất hiện của thẻ cho tài nguyên trực tuyến [28], [29], từ khóa cho các ấn phẩm khoa học [30], từ chứa trang web từ trang web tìm kiếm [31], và định danh trong các chương trình Java, C ++ và C hiện đại [32] cũng đồng thời Hiển thị Zipf của pháp luật và pháp luật Heaps'. Benz et al. [33] báo cáo của Zipf pháp luật của sự phân bố của các tính năng của phân tử hữu cơ nhỏ, cùng với Heaps' luật về số lượng các tính năng độc đáo. Đặc biệt, Zipf của pháp luật và pháp luật Heaps' chặt chẽ có liên quan đến các mạng lưới phát triển. Nó là nổi tiếng rằng một số mạng phát triển một cách Đà [34], [35] và có cấu trúc quy mô-Việt (xem ví dụ WWW [36] và Internet [37]), trên thực tế, bất động sản trước đây tương ứng với luật Heaps' số nút phát triển trong một hình thức sublinear với mức độ tất cả các nút, trong khi sau đó là tương đương với Zipf của pháp luật để phân phối mức độ.Baeza-Yates và Navarro [38] đã chỉ ra rằng các định luật hai có liên quan: khi, nó có thể bắt nguồn rằng nếu Zipf của luật và pháp luật Heaps' giữ,. Bằng cách sử dụng một cách tiếp cận tinh vi hơn, Leijenhorst và Weide [39] Tổng quát kết quả này từ Zipf của luật pháp luật của Mandelbrot [40] nơi và là một hằng số. Dựa trên một biến thể của mẫu Simon [16], Montemurro và Zanette [41], [42] chỉ ra rằng Zipf của pháp luật là một kết quả từ Heaps' luật với tùy thuộc vào và tham số mô hình. Cũng dựa trên một mô hình ngẫu nhiên, Serrano et al. [27] tuyên bố rằng luật pháp của Zipf có thể dẫn đến Heaps' luật khi, và Heaps' số mũ là. Trong bài này, chúng tôi chứng minh rằng cho một hệ thống phát triển với một Zipf ổn định số mũ, Heaps' luật có thể được trực tiếp bắt nguồn từ Zipf của pháp luật mà không có sự giúp đỡ của bất kỳ mô hình ngẫu nhiên cụ thể. Mối quan hệ là chỉ là một giải pháp tiệm cận giữ cho hệ thống rất lớn-kích thước. Chúng tôi sẽ tinh chỉnh các kết quả này cho kích thước hữu hạn hệ thống với và bổ sung cho nó với. Đặc biệt, chúng tôi phân tích những ảnh hưởng của kích thước hệ thống Heaps' số mũ, hoàn toàn bị bỏ qua trong các tài liệu. Mở rộng phân tích thực nghiệm trên hàng chục hệ thống khác nhau khác nhau, từ từ khóa xuất hiện trong tạp chí khoa học để lây lan các mô hình của tiểu thuyết virus cúm A (H1N1) đã chứng minh rằng kết quả tinh tế trình bày ở đây tốt hơn có thể nắm bắt mối quan hệ giữa số mũ của Zipf và Heaps'. Đặc biệt, kết quả của chúng tôi đồng ý với regularities đẩy mạng, phát triển và gợi ý rằng sự phát triển Đà là cần thiết để giữ cho một bản phát hành ổn định văn bằng luật của quyền lực. Trong khi phần lớn các nghiên cứu về Heaps' luật được giới hạn trong ngôn ngữ học, công việc của chúng tôi mở ra cánh cửa để một chân trời rộng lớn hơn nhiều, bao gồm nhiều hệ thống phức tạp.Kết quảPhân tích kết quảFor simplicity of depiction, we use the language of word statistics in text, where denotes the frequency of the word with rank . However, the results are not limited to language systems. Note that is the very number of distinct words with frequency larger than . Denoting by the total number of word occurrences (i.e., size of the text) and the corresponding number of distinct words, then(1)Note that with a constant. According to the normalization condition , when and (these two conditions are hold for most real systems), . Substituting in Eq. 1 by , we have(2)According to the Zipf's law and the relation between the Zipf's and power-law exponents , the right part of Eq. 2 can be expressed in term of and , as(3)Combine Eq. 1 and Eq. 3, we can obtain the estimation of , as(4)Obviously, the text size is the sum of all words' occurrences, say(5)Notice that the summation is larger than the integration . The relative error of this approximation, for , increases with the increasing of and decreases with the increasing of (see Figure S1 the numerical results on the sensitivity of relative errors to parameters and ). Substituting by Eq. 4, it arrives to the relation between and :(6)The direct comparison between the empirical observation and Eq. 6, as well as an improved version of Eq. 6, is shown in Materials and Methods. Clearly, Eq. 6 is not a simply power-law form as described by the Heaps' law. We will see that the Heaps' law is an approximate result that can be derived from Eq. 6. Actually, when is considerably larger than 1, and ; while if is considerably smaller than 1, and . This approximated result can be summarized as(7)which is in accordance with the previous analytical results [29], [38], [39] for and has complemented the case for .Mặc dù Eq. 6 là khác nhau từ một đạo luật năng lượng nghiêm ngặt, số kết quả cho thấy rằng mối quan hệ giữa và có thể được trang bị tốt bởi các chức năng điện-luật (sự lắp là thường nhiều tốt hơn so với các quan sát thực nghiệm về luật Heaps', xem tài liệu và phương pháp cho một số ví dụ điển hình). Trong hình 1, chúng tôi báo cáo kết quả số với cố định tổng số lần xuất hiện từ. Khi là đáng kể lớn hơn hoặc nhỏ hơn 1, kết quả số đồng ý với các giải pháp phân tích nổi tiếng trong Eq. 7, Tuy nhiên, một sự chệch hướng rõ ràng là quan sát cho (xem tài liệu và phương pháp về làm thế nào để có được kết quả số cho).hình thu nhỏTải về: PPT PowerPoint slide PNG hình ảnh lớn hơn (63KB) TIFF hình ảnh ban đầu (368KB)Hình 1. Mối quan hệ giữa Heaps' Hội chợ triển lãm
đang được dịch, vui lòng đợi..
