Entity resolution is an important s

Entity resolution is an important step of data cleaning and information extraction on which
much research has been done. Markov logic allows an intuitive and elegant approach to this
task. In order to demonstrate entity resolution with Alchemy, we take a look at the Cora
dataset containing citations of computer science publications. Citations of the same paper
often appear differently and the task here is to determine which citations are referring to the
same paper. The model used here is based on that of [?].
We start with one basic evidence predicates, HasToken, telling us the actual text and the
“field” (author, title, or venue) of each token in each citation, respectively. The predicate
HasToken(t, f, c) tells us that token t is present in field f in citation c.
Given this evidence, we want to predict which citations are the same, indicated by the
predicate SameCitation. We determine identical citations by looking at each of the fields
author, title, and venue and determining their similarity. This is expressed by the predicate
SameField(f, c1, c2) , where f is a field (author, title, or venue) and c1 and c2 are
citations. To recap, the predicates we need are:
9
HasToken(token, field, citation)
SameField(field, citation, citation)
SameCitation(citation, citation)
The formulas we need to perform entity resolution are very compact thanks to the perconstant + operator. This can be used during weight learning to produce a separate clause
(and, hence, learn a weight) for each value of the variable to which it is applied. For example,
the first rule for entity resolution we want to express “If the same token occurs in the same
field in two separate citations, then the field is the same”; we want to do this for each token
and field pair. In Markov logic, this looks like
Token(+t, i1, c1) ^ InField(i1, +f, c1) ^ Token(+t, i2, c2)
^ InField(i2, +f, c2) => SameField(+f, c1, c2)
Also, we want to make the connection from same field to same citation, doing it for each
field:
SameField(+f, c1, c2) => SameCitation(c1, c2)
Finally, we want to add transitivity to the model (if c1 and c2 are the same citation and c2
and c3 are the same citation, then c1 and c3 are the same citation):
SameCitation(c1, c2) ^ SameCitation(c2, c3) => SameCitation(c1, c3)
We run weight learning on the MLN and data with the following command:
learnwts -d -i er.mln -o er-out.mln -t cora-seg-train.db
-ne SameField,SameCitation
which produces the clauses with learned weights in the file er-out.mln. We can use this to
perform inference on the test data:
infer -ms -i er-out.mln -r er.result -e cora-seg-test.db
-q SameField,SameCitation
The file er.result then contains the marginal probabilities of the query predicates. More
refinements of this model exist which improve the results significantly; for example we could
add transitivity on the SameField predicate. For the state-of-the-art model in Markov logic
for entity resolution, see [2] and [1].

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Độ phân giải thực thể là một bước quan trọng của dữ liệu làm sạch và khai thác thông tin mànhiều nghiên cứu đã được thực hiện. Markov logic cho phép một cách tiếp cận trực quan và thanh lịch nàynhiệm vụ. Để chứng minh độ phân giải thực thể với giả kim thuật, chúng ta hãy xem Corabộ dữ liệu có chứa các trích dẫn của các ấn phẩm khoa học máy tính. Trích dẫn của một bài báothường xuất hiện một cách khác nhau và nhiệm vụ ở đây là để xác định những trích dẫn đề cập đến cácmột bài báo. Các mô hình được sử dụng ở đây dựa trên là của [?].Chúng tôi bắt đầu với một bằng chứng cơ bản predicates, HasToken, cho chúng tôi biết nội dung thực và các"lĩnh vực" (tác giả, tiêu đề, hoặc địa điểm) của mỗi mã thông báo trong mỗi trích dẫn, tương ứng. Vị ngữHasToken (t, f, c) cho chúng ta biết rằng t token là hiện diện trong lĩnh vực f trong trích dẫn.Đưa ra chứng cứ này, chúng tôi muốn để dự đoán mà trích dẫn là như nhau, được chỉ định bởi cácvị ngữ SameCitation. Chúng tôi xác định giống hệt nhau trích dẫn bằng cách nhìn vào mỗi người trong số các lĩnh vựctác giả, tiêu đề, và địa điểm và xác định sự tương tự của họ. Điều này được thể hiện bởi vị ngữSameField (f, c1, c2), nơi f là một lĩnh vực (tác giả, tiêu đề, hoặc địa điểm) và c1 và c2trích dẫn. Để recap, predicates chúng ta cần là:9HasToken (mã thông báo, lĩnh vực, trích dẫn)SameField (lĩnh vực, dẫn, trích dẫn)SameCitation (trích dẫn, trích dẫn)Các công thức chúng ta cần phải thực hiện thực thể giải quyết là rất nhỏ gọn nhờ perconstant + nhà điều hành. Điều này có thể được sử dụng trong trọng lượng học tập để sản xuất một điều khoản riêng biệt(và do đó, tìm hiểu một trọng lượng) cho mỗi giá trị của biến mà nó được áp dụng. Ví dụ,quy tắc đầu tiên cho độ phân giải thực thể mà chúng tôi muốn nhận "nếu mã thông báo tương tự xảy ra trong cùng mộttrường trong hai trích dẫn riêng biệt, sau đó các lĩnh vực là như nhau"; chúng tôi muốn làm điều này cho mỗi mã thông báovà lĩnh vực cặp. Trong Markov logic, điều này có vẻ nhưMã thông báo (+ t, i1, c1) ^ InField (i1, + f, c1) ^ Token (+ t, i2, c2)^ InField(i2, +f, c2) = > SameField (+ f, c1, c2)Ngoài ra, chúng tôi muốn làm cho các kết nối từ cùng một lĩnh vực để trích dẫn cùng, làm cho mỗilĩnh vực:SameField (+ f, c1, c2) = > SameCitation (c1, c2)Cuối cùng, chúng tôi muốn thêm transitivity vào các mô hình (nếu c1 và c2 là cùng một lời trích dẫn và c2và c3 sửa cùng một, sau đó c1 và c3 là sửa cùng một):SameCitation (c1, c2) ^ SameCitation (c2, c3) = > SameCitation (c1, c3)Chúng tôi chạy trọng lượng học trên mỗi tỉnh thành và dữ liệu với lệnh sau đây:learnwts -d -i er.mln -o er-out.mln - t cora-seg-train.db-ne SameField, SameCitationmà tạo ra các điều khoản với các trọng lượng học trong tập tin er-out.mln. Chúng tôi có thể sử dụng này đểthực hiện suy luận trên các dữ liệu thử nghiệm:suy ra -ms -i er-out.mln - r er.result -e cora-seg-test.db-q SameField, SameCitationEr.result tập tin sau đó có xác suất biên của predicates truy vấn. HơnCác cải tiến của mô hình này tồn tại mà cải thiện kết quả đáng kể; Ví dụ: chúng tôi có thểThêm transitivity vào vị ngữ SameField. Cho mô hình nhà nước-of-the-nghệ thuật trong Markov logicĐối với độ phân giải thực thể, xem [2] và [1].

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Độ phân giải thực thể là một bước quan trọng cho việc dọn dẹp dữ liệu và khai thác thông tin trên mà
nhiều nghiên cứu đã được thực hiện. Logic Markov cho phép một cách tiếp cận trực quan và thanh lịch này
nhiệm vụ. Để minh chứng cho độ phân giải thực thể với Alchemy, chúng ta hãy nhìn vào các Cora
bộ dữ liệu chứa các trích dẫn của các ấn phẩm khoa học máy tính. Trích dẫn của bài báo tương tự
thường xuất hiện khác nhau và các nhiệm vụ ở đây là để xác định các trích dẫn được đề cập đến
giấy cùng. Các mô hình được sử dụng ở đây là dựa trên của [?].
Chúng ta bắt đầu với một trong những bằng chứng cơ bản predicates, HasToken, nói với chúng tôi các văn bản thực tế và
"lĩnh vực" (tác giả, tiêu đề, hoặc địa điểm) của mỗi thẻ trong mỗi trích dẫn, tương ứng. Các vị
HasToken (t, f, c) cho chúng ta biết rằng thẻ t hiện diện trong lĩnh vực f trong trích dẫn c.
Với bằng chứng này, chúng tôi muốn dự đoán mà trích dẫn là như nhau, chỉ định bởi các
SameCitation vị. Chúng tôi xác định trích dẫn giống hệt nhau bằng cách nhìn vào từng lĩnh vực
tác giả, tiêu đề, địa điểm thi và xác định tương tự của họ. Điều này được thể hiện bởi các vị
SameField (f, c1, c2), trong đó f là một lĩnh vực (tác giả, tiêu đề, hoặc địa điểm) và c1 và c2 là
các trích dẫn. Để nhớ lại, các vị chúng tôi cần là:
9
HasToken (token, lĩnh vực, trích dẫn)
SameField (lĩnh vực, trích dẫn, trích dẫn)
SameCitation (trích dẫn, trích dẫn)
Các công thức chúng ta cần phải thực hiện phân giải thực là nhờ rất nhỏ gọn để các perconstant + nhà điều hành. Điều này có thể được sử dụng trong quá trình học tập nặng để sản xuất một điều khoản riêng biệt
(và, do đó, tìm hiểu một trọng lượng) cho mỗi giá trị của biến mà nó được áp dụng. Ví dụ,
quy tắc đầu tiên cho độ phân giải thực thể, chúng tôi muốn bày tỏ "Nếu mã thông báo tương tự xảy ra trong cùng một
lĩnh vực trong hai trích dẫn riêng biệt, sau đó trường là như nhau "; chúng tôi muốn làm điều này cho mỗi thẻ
cặp và lĩnh vực. Trong logic Markov, điều này có vẻ như
Token (+ t, i1, c1) ^ nội đồng (i1, + f, c1) ^ Token (+ t, i2, c2)
^ nội đồng (i2, + f, c2) => SameField ( + f, c1, c2)
Ngoài ra, chúng tôi muốn làm cho các kết nối từ cùng một lĩnh vực để cùng trích dẫn, làm việc đó đối với từng
lĩnh vực:
SameField (+ f, c1, c2) => SameCitation (c1, c2)
Cuối cùng, chúng tôi muốn thêm transitivity với mô hình (nếu c1 và c2 là các trích dẫn cùng và c2
c3 và được trích dẫn cùng, sau đó c1 và c3 là những trích dẫn như nhau):
SameCitation (c1, c2) ^ SameCitation (c2, c3) => SameCitation ( c1, c3)
Chúng tôi chạy cân học trên MLN và dữ liệu với lệnh sau:
learnwts -d -i er.mln -o er-out.mln -t Cora-seg-train.db
-ne SameField, SameCitation
đó sản xuất khoản với khối lượng đã học được trong các tập tin er-out.mln. Chúng tôi có thể sử dụng điều này để
thực hiện các suy luận trên các dữ liệu thử nghiệm:
suy ra -ms -i-er out.mln -r er.result -e Cora-seg-test.db
-q SameField, SameCitation
File er.result thì chứa đựng các biên xác suất của các vị từ truy vấn. Nhiều
cải tiến của mô hình này tồn tại trong đó cải thiện kết quả đáng kể; Ví dụ chúng ta có thể
thêm vào transitivity vị SameField. Đối với các nhà nước-of-the-nghệ thuật mô hình trong logic Markov
cho độ phân giải thực thể, xem [2] và [1].

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.