4.1.2 Siff17The original applicatio

4.1.2 Siff17
The original application for this tool was to find similar files in a large file system (28) and called Sif. More
recently, the technique has been used in conjunction with other methods to measure the similarity in Java
bytecode files (29). The program has been renamed Siff.
Siff was originally designed to compare a large number of text files finding similarity amongst them. Diff is
a UNIX tool that can compare two text files for similarity, but assuming 1 second per comparison, all
pairwise comparisons between 5,000 files would require more than 12 million comparisons taking about 5
months of CPU time. This is impractical and hence the Siff algorithm was created to reduce this time. Siff
creates a compact representation of a file called an approximate fingerprint. This fingerprint is consists of
an anchor – a string of characters (e.g. acte) – and 50 characters from this point (may include words such as
character). A checksum is computed of the 50 characters and this compared between files. So that the
chosen anchors are reasonably representative of the text, a form of random sampling is used. This
fingerprint can be compared quickly, but allow for differences in the files (as little as only 25% similarity).
If two files have between 5-10 shared fingerprints, they are classed as similar (will depend on file size). The
advantage of this method is that the fingerprint for two similar files will have a large intersection and two
non-related files will have a very small intersection with high probability. Typically the probability of
finding the same 50-byte string in two unrelated files is very low, but the method is susceptible to “bad”
fingerprints. For example, formatting text in documents can account for many file similarities, especially if
the actual document text is small. This could cause two unrelated files to be grouped as similar. This could
be overcome by extracting just the text from the documents.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

4.1.2 Siff17Các ứng dụng ban đầu cho công cụ này là để tìm tập tin tương tự trong một hệ thống tập tin lớn (28) và được gọi là Sif. Hơngần đây, các kỹ thuật đã được sử dụng kết hợp với phương pháp khác để đo tương tự Javabytecode các tập tin (29). Chương trình đã đổi tên thành Siff.Siff ban đầu được thiết kế để so sánh một số lớn các tập tin văn bản tìm kiếm tương tự trong số họ. Khác làmột công cụ UNIX có thể so sánh hai văn bản tập tin cho giống nhau, nhưng nhận 1 giây một so sánh, tất cảcử so sánh giữa 5.000 tập tin sẽ yêu cầu nhiều hơn 12 triệu so sánh tham gia khoảng 5Tháng thời gian CPU. Điều này là không thực tế và do đó các thuật toán Siff được tạo ra để giảm thời gian này. Sifftạo ra một đại diện nhỏ gọn của một tập tin gọi là một vân tay gần đúng. Vân tay này là bao gồmmột neo-một chuỗi ký tự (ví dụ: acte)- và 50 ký tự từ thời điểm này (có thể bao gồm từ chẳng hạn nhưký tự). Một kiểm tra được tính của 50 ký tự và điều này so sánh giữa tập tin. Để cácneo được lựa chọn hợp lý đại diện của văn bản, một hình thức của lấy mẫu ngẫu nhiên được sử dụng. Điều nàyvân tay có thể được so sánh một cách nhanh chóng, nhưng cho phép cho sự khác biệt trong các tập tin (ít nhất là chỉ 25% tương tự).Nếu hai tập tin có từ 5-10 chia sẻ dấu vân tay, họ được phân loại là tương tự như (sẽ phụ thuộc vào kích thước tập tin). Cáclợi thế của phương pháp này là vân tay cho hai tập tin tương tự sẽ có một giao lộ lớn và haitập tin không liên quan sẽ có một giao lộ rất nhỏ với xác suất cao. Thông thường xác suất củaviệc tìm kiếm cùng một 50-byte chuỗi trong hai tập tin không liên quan là rất thấp, nhưng phương pháp này là dễ bị "xấu"dấu vân tay. Ví dụ, định dạng văn bản trong các tài liệu có thể tài khoản cho nhiều tập tin điểm tương đồng, đặc biệt là nếuvăn bản tài liệu thực tế là nhỏ. Điều này có thể gây ra hai tập tin không liên quan được nhóm lại như tương tự. Điều này có thểđược khắc phục bằng cách chiết chỉ văn bản từ các tài liệu.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

4.1.2 Siff17
Các ứng dụng ban đầu cho công cụ này là tìm ra các tập tin tương tự như trong một hệ thống tập tin lớn (28) và được gọi là Sif. Thêm
thời gian gần đây, kỹ thuật này đã được sử dụng kết hợp với các phương pháp khác để đo sự giống nhau trong Java
tập tin bytecode (29). Chương trình này đã được đổi tên Siff.
Siff ban đầu được thiết kế để so sánh một số lượng lớn các tập tin văn bản tìm kiếm tương tự giữa các loài. Diff là
một công cụ UNIX có thể so sánh hai tập tin văn bản cho tương tự, nhưng giả sử 1 giây cho mỗi so sánh, tất cả các
so sánh cặp giữa 5.000 tập tin sẽ đòi hỏi nhiều hơn 12 triệu so sánh lấy khoảng 5
tháng của thời gian CPU. Điều này là không thực tế và do đó các thuật toán Siff được tạo ra để giảm bớt thời gian này. Siff
tạo ra một đại diện nhỏ gọn của một tập tin gọi là một dấu vân tay gần đúng. Dấu vân tay này là bao gồm
một anchor - một chuỗi ký tự (ví dụ như Acte) - và 50 nhân vật từ thời điểm này (có thể bao gồm các từ như
nhân vật). Một checksum được tính trong 50 nhân vật và điều này so sánh giữa các tập tin. Vì vậy mà các
neo được lựa chọn là đại diện hợp lý của văn bản, một hình thức lấy mẫu ngẫu nhiên được sử dụng. Đây
vân tay có thể được so sánh một cách nhanh chóng, nhưng cho phép sự khác biệt trong các tập tin (ít nhất là chỉ có 25% tương tự).
Nếu hai tập tin có từ 5-10 dấu vân tay chia sẻ, chúng được phân loại như tương tự (sẽ phụ thuộc vào kích thước tập tin). Các
lợi thế của phương pháp này là các dấu vân tay cho hai tập tin tương tự sẽ có một ngã tư lớn và hai
tập tin không liên quan sẽ có một ngã tư rất nhỏ với xác suất cao. Điển hình là xác suất của
việc tìm kiếm cùng một chuỗi 50-byte trong hai tập tin không liên quan là rất thấp, nhưng phương pháp này là dễ bị "xấu"
dấu vân tay. Ví dụ, định dạng văn bản trong các tài liệu có thể chiếm nhiều điểm tương đồng tập tin, đặc biệt là nếu
các văn bản tài liệu thực tế là nhỏ. Điều này có thể gây ra hai tập tin không liên quan được phân nhóm như tương tự. Điều này có thể
được khắc phục bằng cách chiết xuất chỉ là văn bản từ các tài liệu.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.