Luật Heaps '[2] cũng có thể được áp dụng trong việc mô tả xử lý ngôn ngữ tự nhiên, theo đó các kích thước từ vựng phát triển trong một chức năng sublinear với kích thước tài liệu, nói với, nơi biểu thị tổng số từ và số lượng các từ riêng biệt. Một thành phần gây ra như một sự tăng trưởng sublinear có thể là bộ nhớ và tính chất bùng phát của ngôn ngữ con người [23] - [25]. Một hiện tượng thú vị đặc biệt là sự cùng tồn tại của pháp luật của Zipf và pháp luật Heaps '. Gelbukh và Sidorov [26] quan sát thấy hai luật này bằng tiếng Anh, Nga và Tây Ban Nha, với số mũ khác nhau tùy thuộc vào ngôn ngữ. Kết quả tương tự gần đây đã được báo cáo cho các tập văn của văn bản web [27], bao gồm cả các cơ sở dữ liệu ngành Công nghiệp, Open Directory và Wikipedia tiếng Anh. Bên cạnh các quy tắc thống kê của văn bản, các lần xuất hiện của các thẻ cho tài nguyên trực tuyến [28], [29], từ khóa cho các ấn phẩm khoa học [30], từ chứa của các trang web kết quả từ việc tìm kiếm [31], và các định dạng Java hiện đại, C web ++ và các chương trình C [32] cũng đồng thời hiển thị pháp luật của Zipf và pháp luật Heaps '. Benz et al. [33] đã báo cáo pháp luật của Zipf về sự phân bố của các tính năng của các phân tử hữu cơ nhỏ, cùng với pháp luật 'Heaps về số lượng các tính năng độc đáo. Đặc biệt, pháp luật của Zipf và pháp luật Heaps 'liên quan chặt chẽ đến các mạng phát triển. Nó là nổi tiếng mà một số mạng lưới phát triển một cách tăng tốc [34], [35] và có cấu trúc mô-free (xem ví dụ về WWW [36] và Internet [37]), trên thực tế, những tài sản tương ứng với cựu . pháp luật 'Heaps rằng số lượng các nút lớn lên trong một hình thức sublinear với tổng mức độ của các nút, trong khi sau này là tương đương với pháp luật của Zipf cho phân phối độ Baeza-Yates và Navarro [38] cho thấy rằng hai luật có liên quan: khi, nó có thể được bắt nguồn mà pháp luật nếu cả của Zipf và giữ luật Heaps ',. Bằng cách sử dụng một cách tiếp cận tinh vi hơn, Leijenhorst và Weide [39] khái quát kết quả này từ pháp luật của Zipf pháp luật của Mandelbrot [40] nơi và là một hằng số. Dựa trên một biến thể của mô hình Simon [16], Montemurro và Zanette [41], [42] cho thấy rằng luật pháp của Zipf là một kết quả từ pháp luật 'Heaps với tùy thuộc vào và tham số mô hình. Ngoài ra dựa trên một mô hình ngẫu nhiên, Serrano et al. [27] cho rằng pháp luật của Zipf có thể dẫn đến việc Heaps 'pháp luật khi, và Heaps' mũ là. Trong bài báo này, chúng tôi chứng minh rằng đối với một hệ thống phát triển với số mũ một Zipf ổn định của, pháp luật 'Heaps có thể được bắt nguồn trực tiếp từ pháp luật của Zipf mà không cần sự giúp đỡ của bất kỳ mô hình ngẫu nhiên cụ thể. Các mối quan hệ chỉ là một giải pháp giữ tiệm cận cho hệ thống rất lớn kích thước với. Chúng tôi sẽ tinh chỉnh kết quả này cho các hệ thống hữu hạn kích thước với và bổ sung cho nó với. Đặc biệt, chúng tôi phân tích những ảnh hưởng của kích thước hệ thống về số mũ của Heaps, được hoàn toàn bị bỏ qua trong các tài liệu. Phân tích thực nghiệm rộng rãi trên hàng chục hệ thống khác nhau, từ lần xuất hiện từ khóa trong các tạp chí khoa học để truyền bá mẫu của virus cúm A mới (H1N1) đã chứng minh rằng kết quả tinh tế trình bày ở đây có thể nắm bắt tốt hơn mối quan hệ giữa số mũ Heaps 'của Zipf và. Đặc biệt, kết quả của chúng tôi đồng ý tốt với các qui luật phát triển của các mạng lưới thúc đẩy và đề nghị rằng tốc độ tăng là cần thiết để giữ một sức mạnh-luật phân bố mức độ ổn định. Trong khi phần lớn các nghiên cứu về pháp luật 'Heaps được giới hạn trong ngôn ngữ học, công việc của chúng tôi mở ra cánh cửa đến một chân trời rộng lớn hơn nhiều mà bao gồm nhiều hệ thống phức tạp. Kết quả Kết quả phân tích Để đơn giản mô tả, chúng tôi sử dụng ngôn ngữ của số liệu thống kê từ trong văn bản, nơi biểu thị tần số của từ với cấp bậc. Tuy nhiên, kết quả không giới hạn hệ thống ngôn ngữ. Lưu ý là số lượng rất các từ riêng biệt với tần số lớn hơn. Biểu thị bằng tổng số lần xuất hiện từ (tức là, kích thước của văn bản) và các số tương ứng của các từ riêng biệt, sau đó (1) Chú ý rằng với một hằng số. Theo các điều kiện bình thường, khi nào và (hai điều kiện là giữ cho hầu hết các hệ thống thực tế),. Thay vào phương trình. 1 bởi, chúng ta có (2) Theo luật của Zipf và mối quan hệ giữa các số mũ của Zipf và quyền lực-pháp luật, phần bên phải của phương trình. 2 có thể được thể hiện trong thời hạn từ, như (3) Kết hợp phương. 1 và Eq. 3, chúng ta có thể có được các ước lượng, như (4) Rõ ràng, kích thước văn bản là tổng hợp của tất cả các từ xuất hiện, nói (5) Chú ý rằng tổng là lớn hơn so với hội nhập. Các sai số tương đối của xấp xỉ này, cho, làm tăng với sự gia tăng của và giảm với sự gia tăng của (xem Hình S1 các kết quả bằng số vào sự nhạy cảm của các lỗi liên quan đến các thông số và). Thay thế bởi Eq. 4, nó đến với mối quan hệ giữa và: (6) Sự so sánh trực tiếp giữa các quan sát thực nghiệm và phương. 6, cũng như một phiên bản cải tiến của phương trình. 6, được thể hiện trong Vật liệu và phương pháp. Rõ ràng, Eq. 6 không phải là một hình thức quyền lực pháp luật đơn giản như mô tả của pháp luật 'Heaps. Chúng ta sẽ thấy rằng pháp luật 'Heaps là một kết quả gần đúng có thể được bắt nguồn từ biểu thức. 6. Trên thực tế, khi là lớn hơn đáng kể so với 1, và; trong khi nếu là nhỏ hơn đáng kể so với 1, và. Kết quả xấp xỉ này có thể được tóm tắt như (7), phù hợp với các kết quả phân tích trước đó [29], [38], [39] và đã bổ sung cho các trường hợp. Mặc dù phương. 6 là khác nhau từ một định luật nghiêm ngặt, kết quả số chỉ ra rằng mối quan hệ giữa và có thể được trang bị tốt bởi các chức năng điện rể (lắp thường là tốt hơn nhiều so với các quan sát thực nghiệm về pháp luật 'Heaps, xem liệu và phương pháp cho một số ví dụ điển hình). Trong hình. 1, chúng tôi báo cáo kết quả bằng số với tổng số cố định của các lần xuất hiện từ đó. Khi là lớn hơn đáng kể hoặc nhỏ hơn 1, kết quả số đồng ý tốt với các giải pháp phân tích được biết đến trong phương. 7, tuy nhiên, một sự sai lệch rõ ràng được quan sát cho (xem Vật liệu và phương pháp về cách để có được kết quả bằng số cho). thumbnail Download: PPT PowerPoint trượt PNG hình ảnh lớn hơn (63KB) TIFF hình ảnh ban đầu (368KB) Hình 1. Mối quan hệ giữa các Heaps 'hội chợ
đang được dịch, vui lòng đợi..
