Một nguồn gốc chính thức của Luật Heaps '
DC van Leijenhorst, Th.P. van der Weide
*
Sở Khoa học Máy tính, Khoa Toán và Khoa học máy tính,
Đại học Radboud Nijmegen, Toernooiveld 1, 6525 EDNijmegen, Hà Lan
đã nhận 25 tháng 9 năm 2003; nhận được trong hình thức sửa đổi ngày 26 tháng hai năm 2004; chấp nhận ngày 2 tháng 3 năm 2004
Tóm tắt
các tần số từ trong tài liệu văn bản có thể được mô tả một cách hợp lý các Mandelbrot
phân phối, trong đó có Luật Zipf như là một trường hợp đặc biệt. Hơn nữa, sự phát triển của
quy mô vốn từ vựng như là một hàm của kích thước văn bản (số lượng các từ ngữ) đã được mô tả trong
Luật Heaps '. Nó đã được chứng minh rằng hai luật thực nghiệm có liên quan.
Trong bài báo này chúng tôi đi một bước xa hơn, và cung cấp một (chính thức) nguồn gốc của Heaps 'Luật
từ phân phối Mandelbrot. Chúng tôi cũng cung cấp một đặc điểm kỹ thuật của khu vực có giá trị
để áp dụng Heaps 'Luật.
?
2004 Elsevier Inc. Tất cả quyền được bảo lưu.
1. Giới thiệu
Trong nhiều tình huống thực tế, một kết nối đã được trình bày giữa các
đơn đặt hàng của các xác suất của các sự kiện, và xác suất chính nó. Các nổi tiếng nhất
mô hình cho các kết nối như vậy là Luật Zipf của [12] và phối Mandelbrot
phân [8].
Hãy để cho
r
th sự kiện có thể xảy ra nhất có xác suất
p
, sau đó Luật Zipf của tiểu bang
mà
p
?
r
là (gần như) bình đẳng cho tất cả các sự kiện, trong khi phân phối Mandelbrot
tuyên bố này cho các biểu thức
p
? ð
c
þ
r
Þ
h
đối với một số thông số
c
và
h
. Trong trường hợp
của
c
¼
0, phân phối cũng được gọi là Luật các tổng quát của Zipf. Một số
tác giả khuyến khích tính hợp lệ của các luật này từ các hiện tượng vật lý, xem cho
*
tác giả tương ứng. . Fax: + 31-24-3553450
: Địa chỉ E-mail
tvdw@cs.kun.nl
(Th.P. van der Weide).
thấy vấn đề phía trước - 0020-0255 / $
?
2004 Elsevier Inc. Tất cả quyền được bảo lưu.
doi : 10,1016 / j.ins.2004.03.006
Khoa học thông tin 170 (2005) 263-272
www.elsevier.com/locate/ins
dụ [4] cho Luật Zipf trong bối cảnh của thành phố. Nhưng nó cũng có thể
lấy được Luật Zipf / Mandelbrot từ một mô hình đơn giản thống kê [7]. Ví dụ,
Luật Zipf có thể được bắt nguồn cho các lần xuất hiện từ trong ngôn ngữ nhân tạo, khi nó được
giả định rằng các chữ cái mà soạn một từ được rút ra ngẫu nhiên từ một số
phân phối. Trong thực tế, tuy nhiên, các từ được tư lự lựa chọn bởi các
tác giả; nhưng về lâu về dài quá trình lựa chọn này có thể điều chỉnh để một statis- như
mô tả tical.
Một luật thực nghiệm về bản chất là Heaps 'Luật [6], trong đó mô tả sự
tăng trưởng trung bình trong số các yếu tố duy nhất (còn gọi là số
lượng hồ sơ ), khi các yếu tố được rút ra một cách ngẫu nhiên mà không cần thay thế từ
một số phân bố thống kê. Ví dụ, trong trường hợp xuất hiện từ trong
ngôn ngữ tự nhiên, Luật Heaps 'dự đoán kích thước từ vựng của một tài liệu từ
văn bản kích thước của nó, tức là, số lượng các từ nó chứa. Heaps 'Luật nêu rằng đây
số lượng các yếu tố độc đáo sẽ phát triển theo
một
k
b
cho một số ứng dụng
các hằng số phụ thuộc
một
và
b
, 0
<
b
<
1, nơi mà
k
là số các bản vẽ.
Xem Bảng 1 cho một cái nhìn tổng quan của các biểu tượng được sử dụng.
Trong bài báo này, chúng tôi tập trung vào các mối quan hệ giữa Luật Zipf và sự
phân phối Mandelbrot trên một mặt, và Luật Heaps 'mặt khác.
Mối quan hệ này đã được công nhận, ví dụ như trong [3], nhưng mối quan hệ này đã không
được thúc đẩy chính thức . Trong bài báo này chúng tôi giả định rằng yếu tố được rút ra
theo phân phối Mandelbrot, và lấy được Heaps 'Luật cho các
số nguyên tố độc đáo rút ra. Như một hệ quả, Heaps 'Luật cũng có thể được
coi một cách tự nhiên như một ước tính phức tạp.
Thật không may, phân tích điều này dẫn đến một mối quan hệ tái phát khá untractable
rằng không có giải pháp phân tích. Bằng cách áp dụng kỹ thuật từ phức tạp gì-
Ory, hạn chế bản thân để điều lệnh đầu tiên, Luật Heaps 'thu được. Lưu ý
rằng bằng cách liên quan đến điều kiện bậc thứ hai, một công thức tiên tiến hơn của Heaps '
Luật có thể thu được.
Bảng 1
Bảng biểu tượng quan trọng nhất được sử dụng trong bài viết này
Symbol Ý nghĩa
N
kích thước từ vựng
c
liên tục trong Mandelbrot phân phối
h
liên tục trong Mandelbrot phân phối
một
N
liên tục Normalization phân phối Mandelbrot
một
hằng số trong 'Luật Heaps
b
liên tục trong Heaps 'Luật
S
k
Xác suất của từ mới trong
k
th vẽ
M
k
k
th khoảnh khắc nghịch đảo của phân phối xác suất
N
k
Dự kiến quy mô vốn từ vựng sau
k
bản vẽ
264
DC van Leijenhorst, Th.P. van der Weide / Thông tin Khoa học 170 (2005) 263-272
Trong hình. 1 chúng ta thấy cách độc đáo tăng trưởng trung bình có thể được trang bị bởi một chức năng điện
có dạng
một
k
b
trong trường hợp của một tập hợp các nguyên tố 100 (ký hiệu là
N
¼
100 trong này
con số;
theta
và
c
tham khảo các thông số của phân phối Mandelbrot , và
một
N
là một sự bình thường hóa liên tục để phân phối này sẽ được giới thiệu trong một
phần sau).
Tuy nhiên, xấp xỉ này thể hiện bằng Luật Heaps 'là không hợp lệ ở khắp mọi
nơi. Đối với một lý do, số lượng hồ sơ được bao bọc bởi tổng số
các sự kiện, trong khi một chức năng điện sẽ vượt quá con số này cuối cùng. Để
thể hiện tính hiệu lực hạn chế của Luật Heaps ', chúng tôi cũng tập trung vào các khu vực có giá trị
của xấp xỉ trong phân tích của chúng tôi. Các khu vực có giá trị được mô tả thay
cho việc phòng thủ, trong thực tế khu vực này sẽ lớn hơn.
Cấu trúc của bài viết này là như sau. Trong phần thảo luận 2we liên quan
làm việc. Trong phần 3, chúng tôi trình bày một mô hình thống kê cho các kích thước từ vựng trong một
văn bản, tức là trung bình số lần xuất hiện độc đáo sau khi một loạt các bản vẽ.
Trong phần 4, chúng tôi giải quyết các phương trình kết quả, dẫn đến Luật Heaps '. Chúng tôi cũng
cung cấp cho giới hạn cho các khu vực có giá trị của xấp xỉ. Trong phần 5, chúng tôi rút ra
một số kết luận và thảo luận về nghiên cứu thêm.
đang được dịch, vui lòng đợi..
