The idea behind thissoft match scor

The idea behind this
soft match score is to reward cognates
over candidate pairs that have no semblance of one another whatsoever. For
example, the lcss score component for
the pair hLondon, Londresi would be ca.
0.62 ( len(“London”)+len( 2∗4 “Londres”)), whereas
the pair hLondon, Parisi would receive a
match score of 0, each of the scores yet to
be weighted by cnt(t1)1 ·cnt(t2). This soft
matching score serves to accommodate
web sites that base their URLs on, for example, the headlines of articles or posts.
4 Evaluation
4.1 Recall on training and test data
To rank alignment hypotheses, we investigated all
uniform linear combinations of the three individual scoring functions. Table 1 shows the results for
the training set, and, in the last row, the performance of the best feature combination on the test
set. In the first set of experiments on the training set, whose results are shown in the left half
of the table, we used the list of known matches in
the training data both for seeding cross-lingual LSI
and evaluation. These numbers give us a sense how
well monolingual documents are mapped into the
joint semantic space by LSI and document fold-in.
The first column of the recall numbers (“strict”)
follows the official evaluation procedure, counting
only exact URL matches as correct. The following
columns show the performance if a more lenient
notion of “matching documents” is applied. This
more lenient measures computes the similarity between the expected and a proposed target document for a given source document (and vice versa)
as follows:
score(text1,text2) = 2 · lcss(text1,text2)
|text1| + |text2| (4)
The length of the longest common sub-sequence
(lcss) is here measured in terms of space-separated
tokens as they occur in the text. No more sophisticated tokenisation is performed. The contentbased evaluation measure counts a proposed match
as correct if the similarity between a proposed target (or source) document and the expected document is greater or equal to the threshold indicated
in the column header.
The right half of the table shows the results for
the same evaluation performed on the basis of original bilingual term-document matrices that exclude
all known matches from the domain in question,
relying only on known matches from other web domains. This leads to fewer vocabulary matches, as
terms specific to the web site in question may not
be included in the model. As expected, we see a
drop in performance, but we are still able to recove

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Ý tưởng đằng sau nàymềm mại kết hợp điểm là phần thưởng nghitrong cặp ứng cử viên đã không semblance của nhau nào. ChoVí dụ, các lcss điểm thành phần choCặp hLondon, Londresi sẽ là ca.0,62 (len ("London") + len (2∗4 "Londres")), trong khihLondon cặp, Parisi sẽ nhận được mộtphù hợp với số điểm là 0, mỗi điểm được nêu ra đểđược tính bởi cnt (t1) 1 ·cnt(t2). Soft nàyphù hợp với điểm phục vụ để đáp ứngCác trang web mà căn cứ URL của họ, ví dụ, các tiêu đề của bài báo hoặc bài viết.4 đánh giá4.1 nhớ lại về đào tạo và kiểm tra dữ liệuĐể sắp xếp hạng giả thuyết, chúng tôi điều tra tất cảthống nhất kết hợp tuyến tính của ba chức năng chấm điểm cá nhân. Bảng 1 cho thấy các kết quả chođào tạo thiết lập, và, ở hàng cuối, hiệu suất của kết hợp tính năng tốt nhất trên các bài kiểm trathiết lập. Trong tập đầu tiên của thử nghiệm trên các thiết lập đào tạo, mà kết quả sẽ được hiển thị ở nửa bên tráibảng, chúng tôi sử dụng danh sách các trận đấu được biết đến trongđào tạo dữ liệu cả hai cho seeding LSI cross-ngôn ngữvà đánh giá. Những con số này cho chúng ta một cảm giác như thế nàosử tốt tài liệu được ánh xạ vào cácchung ngữ nghĩa không gian bởi LSI và tài liệu trong màn hình đầu tiên.Cột đầu tiên của số điện thoại gọi lại ("nghiêm ngặt")sau các thủ tục chính thức đánh giá, đếmsố lượng URL chính xác phù hợp là chính xác. Sau đâycột hiển thị hiệu suất nếu một khoan dung hơnkhái niệm về "phù hợp với tài liệu" được áp dụng. Điều nàyCác biện pháp khoan dung hơn tính tương đồng giữa dự kiến và tài liệu được đề xuất mục tiêu cho một tài liệu nhất định nguồn (và ngược lại)như sau:score(text1,text2) = 2 · lcss(text1,text2)| text1 | + | text2 | (4)Chiều dài của chuỗi con chung dài nhất(lcss) ở đây được đo trong điều kiện ngăn cách không gianhiệu như chúng xảy ra trong văn bản. Không tinh vi hơn tokenisation được thực hiện. Contentbased đánh giá đo đếm một phù hợp với đề xuấtđúng nếu tương tự từ một tài liệu được đề xuất mục tiêu (hoặc nguồn) đến tài liệu dự kiến là lớn hơn hoặc bằng ngưỡng được chỉ địnhtrong tiêu đề cột.Nửa bên phải của bảng hiển thị kết quả chođánh giá cùng thực hiện trên cơ sở bản gốc ma trận song ngữ thuật ngữ-tài liệu loại trừTất cả các trận đấu được biết đến từ các tên miền trong câu hỏi,phụ thuộc chỉ vào các trận đấu được biết đến từ các tên miền trang web khác. Điều này dẫn đến ít từ vựng phù hợp, như làđiều khoản cụ thể cho các trang web trong câu hỏi có thể khôngđược bao gồm trong các mô hình. Theo dự kiến, chúng ta thấy mộtthả trong hoạt động, nhưng chúng tôi vẫn có thể recove

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Ý tưởng đằng sau này
tỷ số trận đấu mềm là để thưởng cùng gốc
qua cặp ứng cử viên mà không có cái vẻ của một người khác nào. Ví
dụ, thành phần số lcss cho
các cặp hLondon, Londresi sẽ được Ca.
0,62 (len ( "London") + len (2 * 4 "Londres")), trong khi
các cặp hLondon, Parisi sẽ nhận được một
số trận đấu là 0, mỗi điểm số chưa
được cân bằng CNT (t1) 1 · CNT (t2). Mềm này
điểm phù hợp phục vụ để chứa
các trang web mà căn URL của họ, ví dụ, các tiêu đề của bài báo hoặc bài viết.
4 Đánh giá
4.1 Nhớ lại về đào tạo và kiểm tra dữ liệu
Để xếp hạng các giả thuyết liên kết, chúng tôi điều tra tất cả các
tổ hợp tuyến tính thống nhất của ba chức năng chấm điểm cá nhân.
Bảng 1 cho thấy các kết quả cho các tập huấn luyện, và, ở hàng cuối cùng, hiệu suất của sự kết hợp tính năng tốt nhất trên các kiểm tra
bộ. Trong tập đầu tiên của các thí nghiệm trên tập huấn luyện, có kết quả được thể hiện trong nửa bên trái
của bảng, chúng tôi sử dụng danh sách kết quả được biết đến trong
dữ liệu huấn luyện cho cả hạt giống cross-lingual LSI
và đánh giá. Những con số này cho chúng ta một cảm giác như thế nào
cũng tài liệu đơn ngữ được ánh xạ vào
không gian ngữ nghĩa chung của LSI và tài liệu gấp trong.
Cột đầu tiên của những con số thu hồi ( "nghiêm ngặt")
sau các thủ tục đánh giá chính thức, đếm
chỉ URL hợp chính xác là đúng. Sau đây
cột hiển thị hiệu suất nếu một khoan dung hơn
khái niệm "tài liệu phù hợp" được áp dụng.
Đây biện pháp khoan dung hơn tính toán sự tương tự giữa dự kiến và một tài liệu mục tiêu đề cho một định nguồn tài liệu (và ngược lại)
như sau:
điểm (text1, Text2) = 2 · lcss (text1, Text2)
| text1 | + | Text2 | (4)
Chiều dài của chung phụ chuỗi dài nhất
(lcss) đang ở đây đo về không gian tách
thẻ như chúng xảy ra trong văn bản. Không tokenisation phức tạp hơn được thực hiện. Các biện pháp đánh giá contentbased đếm một trận đấu đề xuất
là đúng nếu giống nhau giữa một tài liệu đề xuất mục tiêu (hoặc nguồn) và các tài liệu dự kiến là lớn hơn hoặc bằng ngưỡng chỉ ra
trong tiêu đề cột.
Nửa bên phải của bảng cho thấy kết quả cho
việc đánh giá tương tự thực hiện trên cơ sở ma trận hạn tài liệu song ngữ gốc mà loại trừ
tất cả các trận đấu được biết đến từ miền trong câu hỏi,
chỉ dựa vào các trận đấu được biết đến từ các tên miền web khác. Điều này dẫn đến ít hơn các trận đấu từ vựng, như
các điều khoản cụ thể cho các trang web trong câu hỏi có thể không
được bao gồm trong mô hình. Theo dự kiến, chúng ta thấy một
giảm hiệu suất, nhưng chúng tôi vẫn có thể recove

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

Ý tưởng đằng sau này.Phần mềm ứng là thưởng tương đồng từ.Trong ứng viên với nhau, không có vẻ bề ngoài.Đối vớiVí dụ, LCSS điểm phầnĐúng hlondon, Londresi sẽ khoảng0.62 (len ("London") + ống kính (2 ∗ 4 "Londres")), vàĐúng, sẽ nhận được một hlondon, Parisi, São PauloTỷ số là 0 điểm, thành tích vẫn chưa đếnLà trọng số của CNT (T1) 1 · CNT (T2).Mềm nàyĐiểm có thể chứa được khớpWebsite địa chỉ, ví dụ, bài báo tựa đề của bài báo hay.Đánh giá 4.4.1 thu hồi dữ liệu huấn luyện và thử nghiệmGiả sử chúng ta sắp xếp thẳng hàng, tất cả các cuộc điều tra.Ba điểm đơn chức năng thống nhất của tổ hợp tuyến tính.Bảng 1 cho thấy kết quả.Luyện tập, và cuối cùng làm trong một hiệu suất tốt nhất, kết hợp kiểm traSet.Ở nhóm đầu tiên huấn luyện tập thử nghiệm, kết quả hiển thị ở nửa bên trái của nó.Ở trong tờ, chúng ta sử dụng các danh sách ứng.Dù là ngôn ngữ của LSI gieo hạt truyền dữ liệu huấn luyện.Với giá.Những con số này cho chúng ta một cảm giác thế nào?Được rồi ánh xạ vào tập tinNgữ nghĩa học chung và tài liệu của không gian LSI gấp đôi.Thanh đầu tiên thu hồi số ("nghiêm khắc")Làm theo quy trình đánh giá chính thức, và đếmChỉ có chính xác không khớp đúng địa chỉ.Giáp các đô thị:Chuyên mục thể hiện nếu còn lỏng lẻoÁp dụng "tài liệu khái niệm phù hợp".Đây.Lỏng lẻo hơn các biện pháp của tính toán và dự định của hồ sơ dự đoán mục tiêu sự giống nhau giữa for a given nguồn (và ngược lại)Như sau:Scores (text1, text2) = 2 · Tàu chiến đấu ven biển (text1, text2)| text1 | + | text2 | (4)Chuỗi dài nhất với chiều dài của con trai công cộng.(tàu chiến đấu ven biển) để đo không gian táchKhi chúng xảy ra khi ở trong văn bản.Không thực hiện tokenisation phức tạp hơn.Dựa trên nội dung phương pháp đánh giá đề nghị số phù hợp.Nếu đề xuất mục tiêu () tài liệu tài liệu với dự đoán sự giống nhau giữa lớn hơn hoặc bằng ngưỡng là đúng.Ở cột trong tiêu đề.Bảng hiển thị kết quả nửa bên phảiCùng đánh giá trên cơ sở cũ của ma trận là loại bỏ thuật ngữ tài liệu quýTất cả các khớp của miền.Chỉ phụ thuộc vào các miền khác của web khớp.Điều này dẫn đến ít từ vựng phù hợp, nhưCụ thể vào trang web của thuật ngữ có thể khôngĐã được bao gồm trong các mô hình.Đúng như mong đợi, chúng ta thấy mộtTrong hiệu suất giảm xuống, nhưng chúng ta vẫn có thể phục hồi

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.