Độ phân giải thực thể là một bước quan trọng cho việc dọn dẹp dữ liệu và khai thác thông tin trên mà
nhiều nghiên cứu đã được thực hiện. Logic Markov cho phép một cách tiếp cận trực quan và thanh lịch này
nhiệm vụ. Để minh chứng cho độ phân giải thực thể với Alchemy, chúng ta hãy nhìn vào các Cora
bộ dữ liệu chứa các trích dẫn của các ấn phẩm khoa học máy tính. Trích dẫn của bài báo tương tự
thường xuất hiện khác nhau và các nhiệm vụ ở đây là để xác định các trích dẫn được đề cập đến
giấy cùng. Các mô hình được sử dụng ở đây là dựa trên của [?].
Chúng ta bắt đầu với một trong những bằng chứng cơ bản predicates, HasToken, nói với chúng tôi các văn bản thực tế và
"lĩnh vực" (tác giả, tiêu đề, hoặc địa điểm) của mỗi thẻ trong mỗi trích dẫn, tương ứng. Các vị
HasToken (t, f, c) cho chúng ta biết rằng thẻ t hiện diện trong lĩnh vực f trong trích dẫn c.
Với bằng chứng này, chúng tôi muốn dự đoán mà trích dẫn là như nhau, chỉ định bởi các
SameCitation vị. Chúng tôi xác định trích dẫn giống hệt nhau bằng cách nhìn vào từng lĩnh vực
tác giả, tiêu đề, địa điểm thi và xác định tương tự của họ. Điều này được thể hiện bởi các vị
SameField (f, c1, c2), trong đó f là một lĩnh vực (tác giả, tiêu đề, hoặc địa điểm) và c1 và c2 là
các trích dẫn. Để nhớ lại, các vị chúng tôi cần là:
9
HasToken (token, lĩnh vực, trích dẫn)
SameField (lĩnh vực, trích dẫn, trích dẫn)
SameCitation (trích dẫn, trích dẫn)
Các công thức chúng ta cần phải thực hiện phân giải thực là nhờ rất nhỏ gọn để các perconstant + nhà điều hành. Điều này có thể được sử dụng trong quá trình học tập nặng để sản xuất một điều khoản riêng biệt
(và, do đó, tìm hiểu một trọng lượng) cho mỗi giá trị của biến mà nó được áp dụng. Ví dụ,
quy tắc đầu tiên cho độ phân giải thực thể, chúng tôi muốn bày tỏ "Nếu mã thông báo tương tự xảy ra trong cùng một
lĩnh vực trong hai trích dẫn riêng biệt, sau đó trường là như nhau "; chúng tôi muốn làm điều này cho mỗi thẻ
cặp và lĩnh vực. Trong logic Markov, điều này có vẻ như
Token (+ t, i1, c1) ^ nội đồng (i1, + f, c1) ^ Token (+ t, i2, c2)
^ nội đồng (i2, + f, c2) => SameField ( + f, c1, c2)
Ngoài ra, chúng tôi muốn làm cho các kết nối từ cùng một lĩnh vực để cùng trích dẫn, làm việc đó đối với từng
lĩnh vực:
SameField (+ f, c1, c2) => SameCitation (c1, c2)
Cuối cùng, chúng tôi muốn thêm transitivity với mô hình (nếu c1 và c2 là các trích dẫn cùng và c2
c3 và được trích dẫn cùng, sau đó c1 và c3 là những trích dẫn như nhau):
SameCitation (c1, c2) ^ SameCitation (c2, c3) => SameCitation ( c1, c3)
Chúng tôi chạy cân học trên MLN và dữ liệu với lệnh sau:
learnwts -d -i er.mln -o er-out.mln -t Cora-seg-train.db
-ne SameField, SameCitation
đó sản xuất khoản với khối lượng đã học được trong các tập tin er-out.mln. Chúng tôi có thể sử dụng điều này để
thực hiện các suy luận trên các dữ liệu thử nghiệm:
suy ra -ms -i-er out.mln -r er.result -e Cora-seg-test.db
-q SameField, SameCitation
File er.result thì chứa đựng các biên xác suất của các vị từ truy vấn. Nhiều
cải tiến của mô hình này tồn tại trong đó cải thiện kết quả đáng kể; Ví dụ chúng ta có thể
thêm vào transitivity vị SameField. Đối với các nhà nước-of-the-nghệ thuật mô hình trong logic Markov
cho độ phân giải thực thể, xem [2] và [1].
đang được dịch, vui lòng đợi..
