AbstractBackgroundZipf's law and Heaps' law are observed in disparate  dịch - AbstractBackgroundZipf's law and Heaps' law are observed in disparate  Việt làm thế nào để nói

AbstractBackgroundZipf's law and He

Abstract
Background

Zipf's law and Heaps' law are observed in disparate complex systems. Of particular interests, these two laws often appear together. Many theoretical models and analyses are performed to understand their co-occurrence in real systems, but it still lacks a clear picture about their relation.
Methodology/Principal Findings

We show that the Heaps' law can be considered as a derivative phenomenon if the system obeys the Zipf's law. Furthermore, we refine the known approximate solution of the Heaps' exponent provided the Zipf's exponent. We show that the approximate solution is indeed an asymptotic solution for infinite systems, while in the finite-size system the Heaps' exponent is sensitive to the system size. Extensive empirical analysis on tens of disparate systems demonstrates that our refined results can better capture the relation between the Zipf's and Heaps' exponents.
Conclusions/Significance

The present analysis provides a clear picture about the relation between the Zipf's law and Heaps' law without the help of any specific stochastic model, namely the Heaps' law is indeed a derivative phenomenon from the Zipf's law. The presented numerical method gives considerably better estimation of the Heaps' exponent given the Zipf's exponent and the system size. Our analysis provides some insights and implications of real complex systems. For example, one can naturally obtained a better explanation of the accelerated growth of scale-free networks.
Figures
Figure 6
Figure 1
Figure 2
Figure 3
Figure 4
Table 1
Figure 5
Figure 6
Figure 1
Figure 2
Figure 3


Citation: Lü L, Zhang Z-K, Zhou T (2010) Zipf's Law Leads to Heaps' Law: Analyzing Their Relation in Finite-Size Systems. PLoS ONE 5(12): e14139. doi:10.1371/journal.pone.0014139

Editor: Olaf Sporns, Indiana University, United States of America

Received: February 21, 2010; Accepted: October 20, 2010; Published: December 2, 2010

Copyright: © 2010 Lü et al. This is an open-access article distributed under the terms of the Creative Commons Attribution License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited.

Funding: The Swiss National Science Foundation (200020-121848) and the National Natural Science Foundation of China (10635040). The funders had no role in study design, data collection and analysis, decision to publish, or preparation of the manuscript.

Competing interests: The authors have declared that no competing interests exist.
Introduction

Giant strides in Complexity Sciences have been the direct outcome of efforts to uncover the universal laws that govern disparate systems. Zipf's law [1] and Heaps' law [2] are two representative examples. In 1940s, Zipf found a certain scaling law in the distribution of the word frequencies. Ranking all the words in descending order of occurrence frequency and denoting by the frequency of the word with rank , the Zipf's law reads , where is the maximal frequency and is the so-called Zipf's exponent. This power-law frequency-rank relation indicates a power-law probability distribution of the frequency itself, say with equal to (see Materials and Methods). As a signature of complex systems, the Zipf's law is observed everywhere [3]: these include the distributions of firm sizes [4], wealths and incomes [5], paper citations [6], gene expressions [7], sizes of blackouts [8], family names [9], city sizes [10], personal donations [11], chess openings [12], traffic loads caused by YouTube videos [13], and so on. Accordingly, many mechanisms are put forward to explain the emergence of the Zipf's law [14], [15], such as the rich gets richer [16], [17], the self-organized criticality [18], Markov Processes [19], aggregation of interacting individuals [20], optimization designs [21] and the least effort principle [22]. To name just a few.

Heaps' law [2] can also be applied in characterizing natural language processing, according to which the vocabulary size grows in a sublinear function with document size, say with , where denotes the total number of words and is the number of distinct words. One ingredient causing such a sublinear growth may be the memory and bursty nature of human language [23]–[25]. A particular interesting phenomenon is the coexistence of the Zipf's law and Heaps' law. Gelbukh and Sidorov [26] observed these two laws in English, Russian and Spanish texts, with different exponents depending on languages. Similar results were recently reported for the corpus of web texts [27], including the Industry Sector database, the Open Directory and the English Wikipedia. Besides the statistical regularities of text, the occurrences of tags for online resources [28], [29], keywords for scientific publications [30], words contained by web pages resulted from web searching [31], and identifiers in modern Java, C++ and C programs [32] also simultaneously display the Zipf's law and Heaps' law. Benz et al. [33] reported the Zipf's law of the distribution of the features of small organic molecules, together with the Heaps' law about the number of unique features. In particular, the Zipf's law and Heaps' law are closely related to the evolving networks. It is well-known that some networks grow in an accelerating manner [34], [35] and have scale-free structures (see for example the WWW [36] and Internet [37]), in fact, the former property corresponds to the Heaps' law that the number of nodes grows in a sublinear form with the total degree of nodes, while the latter is equivalent to the Zipf's law for degree distribution.

Baeza-Yates and Navarro [38] showed that the two laws are related: when , it can be derived that if both the Zipf's law and Heaps' law hold, . By using a more sophisticated approach, Leijenhorst and Weide [39] generalized this result from the Zipf's law to the Mandelbrot's law [40] where and is a constant. Based on a variant of the Simon model [16], Montemurro and Zanette [41], [42] showed that the Zipf's law is a result from the Heaps' law with depending on and the modeling parameter. Also based on a stochastic model, Serrano et al. [27] claimed that the Zipf's law can result in the Heaps' law when , and the Heaps' exponent is . In this paper, we prove that for an evolving system with a stable Zipf's exponent, the Heaps' law can be directly derived from the Zipf's law without the help of any specific stochastic model. The relation is only an asymptotic solution hold for very-large-size systems with . We will refine this result for finite-size systems with and complement it with . In particular, we analyze the effects of system size on the Heaps' exponent, which are completely ignored in the literature. Extensive empirical analysis on tens of disparate systems ranging from keyword occurrences in scientific journals to spreading patterns of the novel virus influenza A (H1N1) has demonstrated that the refined results presented here can better capture the relation between Zipf's and Heaps' exponents. In particular, our results agree well with the evolving regularities of the accelerating networks and suggest that the accelerating growth is necessary to keep a stable power-law degree distribution. Whereas the majority of studies on the Heaps' law are limited in linguistics, our work opens up the door to a much wider horizon that includes many complex systems.
Results
Analytical Results

For simplicity of depiction, we use the language of word statistics in text, where denotes the frequency of the word with rank . However, the results are not limited to language systems. Note that is the very number of distinct words with frequency larger than . Denoting by the total number of word occurrences (i.e., size of the text) and the corresponding number of distinct words, then(1)Note that with a constant. According to the normalization condition , when and (these two conditions are hold for most real systems), . Substituting in Eq. 1 by , we have(2)According to the Zipf's law and the relation between the Zipf's and power-law exponents , the right part of Eq. 2 can be expressed in term of and , as(3)Combine Eq. 1 and Eq. 3, we can obtain the estimation of , as(4)Obviously, the text size is the sum of all words' occurrences, say(5)Notice that the summation is larger than the integration . The relative error of this approximation, for , increases with the increasing of and decreases with the increasing of (see Figure S1 the numerical results on the sensitivity of relative errors to parameters and ). Substituting by Eq. 4, it arrives to the relation between and :(6)The direct comparison between the empirical observation and Eq. 6, as well as an improved version of Eq. 6, is shown in Materials and Methods. Clearly, Eq. 6 is not a simply power-law form as described by the Heaps' law. We will see that the Heaps' law is an approximate result that can be derived from Eq. 6. Actually, when is considerably larger than 1, and ; while if is considerably smaller than 1, and . This approximated result can be summarized as(7)which is in accordance with the previous analytical results [29], [38], [39] for and has complemented the case for .

Although Eq. 6 is different from a strict power law, numerical results indicate that the relationship between and can be well fitted by the power-law functions (the fitting is usually much better than the empirical observations about the Heaps' law, see Materials and Methods for some typical examples). In Fig. 1, we report the numerical results with fixed total number of word occurrences . When is considerably larger or smaller than 1, the numerical results agree well with the known analytical solution in Eq. 7, however, a clear deviation is observed for (see Materials and Methods about how to get the numerical results for ).
thumbnail
Download:

PPT
PowerPoint slide
PNG
larger image (63KB)
TIFF
original image (368KB)

Figure 1. Relationship between the Heaps' expo
0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
Tóm tắtNềnZipf của pháp luật và pháp luật Heaps' được quan sát thấy trong hệ thống phức tạp khác nhau. Các lợi ích cụ thể, những luật này hai thường xuất hiện cùng nhau. Nhiều mô hình lý thuyết và phân tích được thực hiện để hiểu của họ xuất hiện đồng thực hệ thống, nhưng nó vẫn còn thiếu một hình ảnh rõ ràng về mối quan hệ của họ.Những phát hiện phương pháp/hiệu trưởngChúng tôi cho rằng, Heaps' luật có thể được coi như là một hiện tượng phái sinh nếu hệ thống tuân theo pháp luật của Zipf. Hơn nữa, chúng tôi cải tiến các giải pháp gần đúng được biết đến của Heaps' số mũ cung cấp số mũ của Zipf. Chúng tôi thấy rằng các giải pháp gần đúng thực sự là một giải pháp tiệm cận cho hệ thống vô hạn, trong khi trong hệ thống kích thước hữu hạn Heaps' số mũ là nhạy cảm với kích thước của hệ thống. Rộng rãi phân tích thực nghiệm trên hàng chục các hệ thống khác nhau cho thấy rằng các kết quả tinh chế tốt hơn có thể chụp mối quan hệ giữa số mũ của Zipf và Heaps'.Kết luận/ý nghĩaPhân tích hiện nay cung cấp một hình ảnh rõ ràng về mối quan hệ giữa Pháp luật của Zipf và Heaps của pháp luật mà không có sự giúp đỡ của bất kỳ mô hình ngẫu nhiên cụ thể, cụ thể là Heaps' luật thực sự là một hiện tượng phái sinh từ Zipf của pháp luật. Phương pháp số trình bày cho các dự toán tốt hơn đáng kể của Heaps' số mũ cho số mũ của Zipf và kích thước của hệ thống. Phân tích của chúng tôi cung cấp một số hiểu biết và tác động của hệ thống thực sự phức tạp. Ví dụ, nó có thể tự nhiên nhận được một lời giải thích tốt hơn của sự phát triển tăng tốc của quy mô-Việt networks.Số liệuHình 6Hình 1Hình 2Hình 3Hình 4Bảng 1Hình 5Hình 6Hình 1Hình 2Hình 3 Trích dẫn: Nhau L, Zhang Z-K, chu T (2010) Zipf luật dẫn đến Heaps' luật: phân tích các quan hệ trong hệ thống kích thước hữu hạn. PLoS một 5(12): e14139. Doi:10.1371/Journal.pone.0014139Biên tập: Olaf Sporns, đại học Indiana, Vương Quốc AnhNhận được: 21, tháng 2 năm 2010; Chấp nhận: 20 tháng 10 2010; Được đăng: 2 tháng 12 năm 2010Bản quyền: © 2010 bố et al. Đây là một bài viết mở truy cập phân phối theo các điều khoản của Creative Commons Attribution License, mà không bị giới hạn giấy phép sử dụng, phân phối và sinh sản trong môi trường bất kỳ, cung cấp tác giả bản gốc và nguồn được ghi.Tài trợ: Quỹ khoa học quốc gia Thụy sĩ (200020-121848) và Quỹ khoa học tự nhiên quốc gia của Trung Quốc (10635040). Các nhà tài trợ đã không có vai trò trong thiết kế nghiên cứu, thu thập dữ liệu và phân tích, quyết định xuất bản, hoặc chuẩn bị bản thảo.Lợi ích cạnh tranh: Các tác giả đã tuyên bố rằng không có lợi ích cạnh tranh tồn tại.Giới thiệuCác bước tiến khổng lồ trong khoa học phức tạp đã là kết quả trực tiếp của những nỗ lực để phát hiện ra các luật universal chi phối các hệ thống khác nhau. Zipf của luật [1] và Heaps' luật [2] là hai ví dụ đại diện. Trong thập niên 1940, Zipf tìm thấy một luật tỉ lệ nhất định trong sự phân bố của các tần số từ. Xếp hạng tất cả các từ theo thứ tự giảm dần của tần số xuất hiện và biểu thị bởi tần số của từ với đánh giá, Pháp luật của Zipf đọc, nơi là tần số tối đa và là Zipf cái gọi là số mũ. Mối quan hệ đánh giá tần số điện-luật này cho thấy một phân phối xác suất điện-luật của tần số riêng của mình, nói với nhau (xem tài liệu và phương pháp). Như một chữ ký của hệ thống phức tạp, Zipf pháp luật là quan sát ở khắp mọi nơi [3]: bao gồm các bản phân phối của công ty kích thước [4], wealths và thu nhập [5], giấy trích dẫn [6], biểu hiện gen [7], kích thước của mất điện [8], gia đình tên [9], thành phố kích thước [10], sự đóng góp cá nhân [11], cờ vua hở [12], lưu lượng truy cập tải do YouTube video [13], và như vậy. Vì vậy, nhiều cơ chế được đưa ra để giải thích sự nổi lên của Zipf pháp luật [14], [15], chẳng hạn như các phong phú được phong phú hơn [16], [17], tự tổ chức criticality [18], quá trình Markov [19], tập hợp của tương tác cá nhân [20], tối ưu hóa thiết kế [21] và nguyên tắc nỗ lực ít nhất [22]. Để đặt tên chỉ là một vài.Heaps' luật [2] cũng có thể được áp dụng trong characterizing xử lý ngôn ngữ tự nhiên, theo đó kích thước từ vựng phát triển trong một chức năng sublinear với tài liệu kích thước, nói với, nơi biểu thị tổng số từ và là một số khác biệt từ. Một thành phần gây ra một sự tăng trưởng sublinear có thể nhớ và bursty bản chất của con người ngôn ngữ [23]-[25]. Một hiện tượng thú vị cụ thể là cùng tồn tại của Zipf của pháp luật và pháp luật Heaps'. Gelbukh và Sidorov [26] quan sát những luật hai trong văn bản tiếng Anh, tiếng Nga và tiếng Tây Ban Nha, với các số mũ khác nhau tùy thuộc vào ngôn ngữ. Kết quả tương tự gần đây đã được báo cáo cho các văn thể web văn bản [27], bao gồm cả cơ sở dữ liệu ngành, các thư viện mở và Wikipedia tiếng Anh. Bên cạnh các regularities thống kê của văn bản, kết quả là lần xuất hiện của thẻ cho tài nguyên trực tuyến [28], [29], từ khóa cho các ấn phẩm khoa học [30], từ chứa trang web từ trang web tìm kiếm [31], và định danh trong các chương trình Java, C ++ và C hiện đại [32] cũng đồng thời Hiển thị Zipf của pháp luật và pháp luật Heaps'. Benz et al. [33] báo cáo của Zipf pháp luật của sự phân bố của các tính năng của phân tử hữu cơ nhỏ, cùng với Heaps' luật về số lượng các tính năng độc đáo. Đặc biệt, Zipf của pháp luật và pháp luật Heaps' chặt chẽ có liên quan đến các mạng lưới phát triển. Nó là nổi tiếng rằng một số mạng phát triển một cách Đà [34], [35] và có cấu trúc quy mô-Việt (xem ví dụ WWW [36] và Internet [37]), trên thực tế, bất động sản trước đây tương ứng với luật Heaps' số nút phát triển trong một hình thức sublinear với mức độ tất cả các nút, trong khi sau đó là tương đương với Zipf của pháp luật để phân phối mức độ.Baeza-Yates và Navarro [38] đã chỉ ra rằng các định luật hai có liên quan: khi, nó có thể bắt nguồn rằng nếu Zipf của luật và pháp luật Heaps' giữ,. Bằng cách sử dụng một cách tiếp cận tinh vi hơn, Leijenhorst và Weide [39] Tổng quát kết quả này từ Zipf của luật pháp luật của Mandelbrot [40] nơi và là một hằng số. Dựa trên một biến thể của mẫu Simon [16], Montemurro và Zanette [41], [42] chỉ ra rằng Zipf của pháp luật là một kết quả từ Heaps' luật với tùy thuộc vào và tham số mô hình. Cũng dựa trên một mô hình ngẫu nhiên, Serrano et al. [27] tuyên bố rằng luật pháp của Zipf có thể dẫn đến Heaps' luật khi, và Heaps' số mũ là. Trong bài này, chúng tôi chứng minh rằng cho một hệ thống phát triển với một Zipf ổn định số mũ, Heaps' luật có thể được trực tiếp bắt nguồn từ Zipf của pháp luật mà không có sự giúp đỡ của bất kỳ mô hình ngẫu nhiên cụ thể. Mối quan hệ là chỉ là một giải pháp tiệm cận giữ cho hệ thống rất lớn-kích thước. Chúng tôi sẽ tinh chỉnh các kết quả này cho kích thước hữu hạn hệ thống với và bổ sung cho nó với. Đặc biệt, chúng tôi phân tích những ảnh hưởng của kích thước hệ thống Heaps' số mũ, hoàn toàn bị bỏ qua trong các tài liệu. Mở rộng phân tích thực nghiệm trên hàng chục hệ thống khác nhau khác nhau, từ từ khóa xuất hiện trong tạp chí khoa học để lây lan các mô hình của tiểu thuyết virus cúm A (H1N1) đã chứng minh rằng kết quả tinh tế trình bày ở đây tốt hơn có thể nắm bắt mối quan hệ giữa số mũ của Zipf và Heaps'. Đặc biệt, kết quả của chúng tôi đồng ý với regularities đẩy mạng, phát triển và gợi ý rằng sự phát triển Đà là cần thiết để giữ cho một bản phát hành ổn định văn bằng luật của quyền lực. Trong khi phần lớn các nghiên cứu về Heaps' luật được giới hạn trong ngôn ngữ học, công việc của chúng tôi mở ra cánh cửa để một chân trời rộng lớn hơn nhiều, bao gồm nhiều hệ thống phức tạp.Kết quảPhân tích kết quảFor simplicity of depiction, we use the language of word statistics in text, where denotes the frequency of the word with rank . However, the results are not limited to language systems. Note that is the very number of distinct words with frequency larger than . Denoting by the total number of word occurrences (i.e., size of the text) and the corresponding number of distinct words, then(1)Note that with a constant. According to the normalization condition , when and (these two conditions are hold for most real systems), . Substituting in Eq. 1 by , we have(2)According to the Zipf's law and the relation between the Zipf's and power-law exponents , the right part of Eq. 2 can be expressed in term of and , as(3)Combine Eq. 1 and Eq. 3, we can obtain the estimation of , as(4)Obviously, the text size is the sum of all words' occurrences, say(5)Notice that the summation is larger than the integration . The relative error of this approximation, for , increases with the increasing of and decreases with the increasing of (see Figure S1 the numerical results on the sensitivity of relative errors to parameters and ). Substituting by Eq. 4, it arrives to the relation between and :(6)The direct comparison between the empirical observation and Eq. 6, as well as an improved version of Eq. 6, is shown in Materials and Methods. Clearly, Eq. 6 is not a simply power-law form as described by the Heaps' law. We will see that the Heaps' law is an approximate result that can be derived from Eq. 6. Actually, when is considerably larger than 1, and ; while if is considerably smaller than 1, and . This approximated result can be summarized as(7)which is in accordance with the previous analytical results [29], [38], [39] for and has complemented the case for .Mặc dù Eq. 6 là khác nhau từ một đạo luật năng lượng nghiêm ngặt, số kết quả cho thấy rằng mối quan hệ giữa và có thể được trang bị tốt bởi các chức năng điện-luật (sự lắp là thường nhiều tốt hơn so với các quan sát thực nghiệm về luật Heaps', xem tài liệu và phương pháp cho một số ví dụ điển hình). Trong hình 1, chúng tôi báo cáo kết quả số với cố định tổng số lần xuất hiện từ. Khi là đáng kể lớn hơn hoặc nhỏ hơn 1, kết quả số đồng ý với các giải pháp phân tích nổi tiếng trong Eq. 7, Tuy nhiên, một sự chệch hướng rõ ràng là quan sát cho (xem tài liệu và phương pháp về làm thế nào để có được kết quả số cho).hình thu nhỏTải về: PPT PowerPoint slide PNG hình ảnh lớn hơn (63KB) TIFF hình ảnh ban đầu (368KB)Hình 1. Mối quan hệ giữa Heaps' Hội chợ triển lãm
đang được dịch, vui lòng đợi..
Kết quả (Việt) 2:[Sao chép]
Sao chép!
Abstract
Background luật Zipf và luật Heaps 'được quan sát thấy trong các hệ thống phức tạp khác nhau. Các lợi ích đặc biệt, hai luật này thường xuyên xuất hiện cùng nhau. Nhiều mô hình lý thuyết và phân tích được thực hiện để hiểu họ đồng xảy ra trong hệ thống thực tế, nhưng vẫn còn thiếu một bức tranh rõ ràng về mối quan hệ của họ. Phương pháp / Kết quả chính Chúng tôi thấy rằng pháp luật 'Heaps có thể được coi là một hiện tượng phái sinh nếu hệ thống tuân pháp luật của Zipf. Hơn nữa, chúng tôi tinh chỉnh các giải pháp gần đúng được biết đến của số mũ của Heaps cung cấp số mũ của Zipf. Chúng tôi thấy rằng các giải pháp gần đúng thực sự là một giải pháp tiệm cận cho các hệ thống vô hạn, trong khi ở các hệ thống hữu hạn kích thước mũ của Heaps là nhạy cảm với các kích thước của hệ thống. Phân tích thực nghiệm rộng rãi trên hàng chục hệ thống khác nhau chứng minh rằng kết quả tinh của chúng ta có thể nắm bắt tốt hơn mối quan hệ giữa các nhân Zipf và Heaps 'mũ. Kết luận / Ý nghĩa Phân tích hiện nay cung cấp một bức tranh rõ ràng về mối quan hệ giữa pháp luật của Zipf và Heaps 'luật mà không cần sự giúp đỡ của bất kỳ mô hình ngẫu nhiên cụ thể, cụ thể là pháp luật 'Heaps thực sự là một hiện tượng sinh từ pháp luật của Zipf. Các phương pháp số được trình bày cho dự toán tốt hơn đáng kể của số mũ của Heaps cho số mũ của Zipf và kích thước hệ thống. Phân tích của chúng tôi cung cấp một số hiểu biết và những tác động của các hệ thống phức tạp thật. Ví dụ, một cách tự nhiên có thể thu được một lời giải thích rõ hơn về sự phát triển ngày càng nhanh của các mạng quy mô-miễn phí. Số liệu Hình 6 Hình 1 Hình 2 Hình 3 Hình 4 Bảng 1 Hình 5 Hình 6 Hình 1 Hình 2 Hình 3 Citation: Lu L, Zhang ZK , Zhou T (2010) Luật Zipf của Dẫn đến Luật Heaps ': Phân tích quan hệ của họ trong hệ thống hữu hạn-Size. PLoS ONE 5 (12): e14139. doi: 10,1371 / journal.pone.0014139 Editor: Olaf Sporns, Đại học Indiana, Hoa Kỳ đã nhận: Tháng Hai 21, 2010; Được chấp nhận: October 20, 2010; Được đăng: 02 Tháng mười hai 2010 Copyright: © 2010 Lu et al. Đây là một bài báo mở được phân phối theo các điều khoản của Giấy phép Creative Commons Ghi công, cho phép sử dụng không hạn chế, phân phối và sinh sản bằng mọi phương tiện, cung cấp các tác giả gốc và nguồn tài liệu được. Kinh phí: Các khoa học quốc gia Thụy Sĩ Foundation (200020- 121.848) và các quốc gia Quỹ khoa học tự nhiên của Trung Quốc (10.635.040). . Các nhà tài trợ không có vai trò trong thiết kế nghiên cứu, thu thập và phân tích dữ liệu, quyết định công bố, hoặc chuẩn bị bản thảo Cạnh tranh lợi ích: Các tác giả đã tuyên bố rằng không có lợi ích cạnh tranh tồn tại. Giới thiệu những bước tiến khổng lồ trong ngành khoa học phức tạp đã được các kết quả trực tiếp của những nỗ lực để phát hiện ra những quy luật chi phối hệ thống khác nhau. [1] luật Zipf và luật Heaps '[2] là hai ví dụ tiêu biểu. Trong năm 1940, Zipf tìm thấy một luật rộng nhất định trong việc phân phối các tần số từ. Bảng xếp hạng tất cả các từ trong thứ tự giảm dần của tần số xuất hiện và biểu thị bằng tần số của từ với cấp bậc, pháp luật của Zipf đọc, mà là tần số tối đa và là cái gọi là số mũ của Zipf. Điện-pháp luật liên quan tần số hạng này cho thấy một phân bố xác suất điện theo pháp luật của các tần số riêng của mình, nói với bằng (xem Vật liệu và phương pháp). Như một chữ ký của các hệ thống phức tạp, pháp luật của Zipf được quan sát thấy ở khắp mọi nơi [3]: bao gồm các bản phân phối của các kích cỡ công ty [4], wealths và thu nhập [5], trích dẫn bài báo [6], biểu gen [7], kích thước của mất điện [8], tên gia đình [9], kích thước thành phố [10], đóng góp cá nhân [11], mở cờ vua [12], tải giao thông gây ra bởi các video YouTube [13], và như vậy. Theo đó, nhiều cơ chế được đưa ra để giải thích sự xuất hiện của pháp luật của Zipf [14], [15], chẳng hạn như những người giàu có trở nên phong phú hơn [16], [17], criticality tự tổ chức [18], Markov Quy trình [19 ], tập hợp của các cá nhân tương tác [20], thiết kế tối ưu hóa [21] và các nguyên tắc nỗ lực ít nhất [22]. Để đặt tên chỉ là một vài. pháp luật Heaps '[2] cũng có thể được áp dụng trong việc mô tả xử lý ngôn ngữ tự nhiên, theo đó các kích thước từ vựng phát triển trong một chức năng sublinear với kích thước tài liệu, nói với, nơi biểu thị tổng số các từ và các số lượng các từ riêng biệt. Một thành phần gây ra như một sự tăng trưởng sublinear có thể là bộ nhớ và tính chất bùng phát của ngôn ngữ con người [23] - [25]. Một hiện tượng thú vị đặc biệt là sự cùng tồn tại của pháp luật của Zipf và pháp luật Heaps '. Gelbukh và Sidorov [26] quan sát thấy hai luật này bằng tiếng Anh, Nga và Tây Ban Nha, với số mũ khác nhau tùy thuộc vào ngôn ngữ. Kết quả tương tự gần đây đã được báo cáo cho các tập văn của văn bản web [27], bao gồm cả các cơ sở dữ liệu ngành Công nghiệp, Open Directory và Wikipedia tiếng Anh. Bên cạnh các quy tắc thống kê của văn bản, các lần xuất hiện của các thẻ cho tài nguyên trực tuyến [28], [29], từ khóa cho các ấn phẩm khoa học [30], từ chứa của các trang web kết quả từ việc tìm kiếm [31], và các định dạng Java hiện đại, C web ++ và các chương trình C [32] cũng đồng thời hiển thị pháp luật của Zipf và pháp luật Heaps '. Benz et al. [33] đã báo cáo pháp luật của Zipf về sự phân bố của các tính năng của các phân tử hữu cơ nhỏ, cùng với pháp luật 'Heaps về số lượng các tính năng độc đáo. Đặc biệt, pháp luật của Zipf và pháp luật Heaps 'liên quan chặt chẽ đến các mạng phát triển. Nó là nổi tiếng mà một số mạng lưới phát triển một cách tăng tốc [34], [35] và có cấu trúc mô-free (xem ví dụ về WWW [36] và Internet [37]), trên thực tế, những tài sản tương ứng với cựu . pháp luật 'Heaps rằng số lượng các nút lớn lên trong một hình thức sublinear với tổng mức độ của các nút, trong khi sau này là tương đương với pháp luật của Zipf cho phân phối độ Baeza-Yates và Navarro [38] cho thấy rằng hai luật có liên quan: khi, nó có thể được bắt nguồn mà pháp luật nếu cả của Zipf và giữ luật Heaps ',. Bằng cách sử dụng một cách tiếp cận tinh vi hơn, Leijenhorst và Weide [39] khái quát kết quả này từ pháp luật của Zipf pháp luật của Mandelbrot [40] nơi và là một hằng số. Dựa trên một biến thể của mô hình Simon [16], Montemurro và Zanette [41], [42] cho thấy rằng luật pháp của Zipf là một kết quả từ pháp luật 'Heaps với tùy thuộc vào và tham số mô hình. Ngoài ra dựa trên một mô hình ngẫu nhiên, Serrano et al. [27] cho rằng pháp luật của Zipf có thể dẫn đến việc Heaps 'pháp luật khi, và Heaps' mũ là. Trong bài báo này, chúng tôi chứng minh rằng đối với một hệ thống phát triển với số mũ một Zipf ổn định của, pháp luật 'Heaps có thể được bắt nguồn trực tiếp từ pháp luật của Zipf mà không cần sự giúp đỡ của bất kỳ mô hình ngẫu nhiên cụ thể. Các mối quan hệ chỉ là một giải pháp giữ tiệm cận cho hệ thống rất lớn kích thước với. Chúng tôi sẽ tinh chỉnh kết quả này cho các hệ thống hữu hạn kích thước với và bổ sung cho nó với. Đặc biệt, chúng tôi phân tích những ảnh hưởng của kích thước hệ thống về số mũ của Heaps, được hoàn toàn bị bỏ qua trong các tài liệu. Phân tích thực nghiệm rộng rãi trên hàng chục hệ thống khác nhau, từ lần xuất hiện từ khóa trong các tạp chí khoa học để truyền bá mẫu của virus cúm A mới (H1N1) đã chứng minh rằng kết quả tinh tế trình bày ở đây có thể nắm bắt tốt hơn mối quan hệ giữa số mũ Heaps 'của Zipf và. Đặc biệt, kết quả của chúng tôi đồng ý tốt với các qui luật phát triển của các mạng lưới thúc đẩy và đề nghị rằng tốc độ tăng là cần thiết để giữ một sức mạnh-luật phân bố mức độ ổn định. Trong khi phần lớn các nghiên cứu về pháp luật 'Heaps được giới hạn trong ngôn ngữ học, công việc của chúng tôi mở ra cánh cửa đến một chân trời rộng lớn hơn nhiều mà bao gồm nhiều hệ thống phức tạp. Kết quả Kết quả phân tích Để đơn giản mô tả, chúng tôi sử dụng ngôn ngữ của số liệu thống kê từ trong văn bản, nơi biểu thị tần số của từ với cấp bậc. Tuy nhiên, kết quả không giới hạn hệ thống ngôn ngữ. Lưu ý là số lượng rất các từ riêng biệt với tần số lớn hơn. Biểu thị bằng tổng số lần xuất hiện từ (tức là, kích thước của văn bản) và các số tương ứng của các từ riêng biệt, sau đó (1) Chú ý rằng với một hằng số. Theo các điều kiện bình thường, khi nào và (hai điều kiện là giữ cho hầu hết các hệ thống thực tế),. Thay vào phương trình. 1 bởi, chúng ta có (2) Theo luật của Zipf và mối quan hệ giữa các số mũ của Zipf và quyền lực-pháp luật, phần bên phải của phương trình. 2 có thể được thể hiện trong thời hạn từ, như (3) Kết hợp phương. 1 và Eq. 3, chúng ta có thể có được các ước lượng, như (4) Rõ ràng, kích thước văn bản là tổng hợp của tất cả các từ xuất hiện, nói (5) Chú ý rằng tổng là lớn hơn so với hội nhập. Các sai số tương đối của xấp xỉ này, cho, làm tăng với sự gia tăng của và giảm với sự gia tăng của (xem Hình S1 các kết quả bằng số vào sự nhạy cảm của các lỗi liên quan đến các thông số và). Thay thế bởi Eq. 4, nó đến với mối quan hệ giữa và: (6) Sự so sánh trực tiếp giữa các quan sát thực nghiệm và phương. 6, cũng như một phiên bản cải tiến của phương trình. 6, được thể hiện trong Vật liệu và phương pháp. Rõ ràng, Eq. 6 không phải là một hình thức quyền lực pháp luật đơn giản như mô tả của pháp luật 'Heaps. Chúng ta sẽ thấy rằng pháp luật 'Heaps là một kết quả gần đúng có thể được bắt nguồn từ biểu thức. 6. Trên thực tế, khi là lớn hơn đáng kể so với 1, và; trong khi nếu là nhỏ hơn đáng kể so với 1, và. Kết quả xấp xỉ này có thể được tóm tắt như (7), phù hợp với các kết quả phân tích trước đó [29], [38], [39] và đã bổ sung cho các trường hợp. Mặc dù phương. 6 là khác nhau từ một định luật nghiêm ngặt, kết quả số chỉ ra rằng mối quan hệ giữa và có thể được trang bị tốt bởi các chức năng điện rể (lắp thường là tốt hơn nhiều so với các quan sát thực nghiệm về pháp luật 'Heaps, xem liệu và phương pháp cho một số ví dụ điển hình). Trong hình. 1, chúng tôi báo cáo kết quả bằng số với tổng số cố định của các lần xuất hiện từ đó. Khi là lớn hơn đáng kể hoặc nhỏ hơn 1, kết quả số đồng ý tốt với các giải pháp phân tích được biết đến trong phương. 7, tuy nhiên, một sự sai lệch rõ ràng được quan sát cho (xem Vật liệu và phương pháp về cách để có được kết quả bằng số cho). thumbnail Download: PPT PowerPoint trượt PNG hình ảnh lớn hơn (63KB) TIFF hình ảnh ban đầu (368KB) Hình 1. Mối quan hệ giữa các Heaps 'hội chợ
























































đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2024 I Love Translation. All reserved.

E-mail: