The structure of a Markov logic net

The structure of a Markov logic network is the set of formulas or clauses to
which we attach weights. In principle, this structure can be learned or revised
using any inductive logic programming (ILP) technique. However, since an MLN
represents a probability distribution, much better results are obtained by using
an evaluation function based on pseudo-likelihood, rather than typical ILP ones
like accuracy and coverage [18]. Log-likelihood or conditional log-likelihood are
potentially better evaluation functions, but are vastly more expensive to compute. In experiments on two real-world datasets, our MLN structure learning
algorithm found better MLN rules than CLAUDIEN [6], FOIL [42], Aleph [54],
and even a hand-written knowledge base.
MLN structure learning can start from an empty network or from an existing
KB. Either way, we have found it useful to start by adding all unit clauses
(single atoms) to the MLN. The weights of these capture (roughly speaking)
the marginal distributions of the atoms, allowing the longer clauses to focus on
modeling atom dependencies. To extend this initial model, we either repeatedly
find the best clause using beam search and add it to the MLN, or add all “good”
clauses of length l before trying clauses of length l + 1. Candidate clauses are
formed by adding each predicate (negated or otherwise) to each current clause,
with all possible combinations of variables, subject to the constraint that at least
one variable in the new predicate must appear in the current clause. Hand-coded
clauses are also modified by removing predicates.
We now discuss the evaluation measure, clause construction operators, search
strategy, and speedup methods in greater detail.
As an evaluation measure, pseudo-likelihood (Equation 5) tends to give undue
weight to the largest-arity predicates, resulting in poor modeling of the rest. We
thus define the weighted pseudo-log-likelihood (WPLL) as
Markov L ogic 107
lo g Pw•(X = x) =
r ∈R
c
r
gr
k
= 1
log Pw(Xr,k = xr,k |MBx(Xr,k)) (7)
where R is the set of first-order atoms, gr is the number of groundings of firstorder atom r, and xr,k is the truth value (0 or 1) of the kth grounding of r. The
choice of atom weights cr depends on the user’s goals. In our experiments, we
simply set cr = 1/gr, which has the effect of weighting all first-order predicates
equally. If modeling a predicate is not important (e.g., because it will always be
part of the evidence), we set its weight to zero. To combat overfitting, we penalize
the WPLL with a structure prior of e −α Fi = 1 di, where di is the number of literals
that differ between the current version of the clause and the original one. (If the
clause is new, this is simply its length.) This is similar to the approach used in
learning Bayesian networks [14].
A potentially serious problem that arises when evaluating candidate clauses
using WPLL is that the optimal (maximum WPLL) weights need to be computed for each candidate. Given that this involves numerical optimization, and
may need to be done thousands or millions of times, it could easily make the algorithm too slow to be practical. We avoid this bottleneck by simply initializing
L-BFGS with the current weights (and zero weight for a new clause). Secondorder, quadratic-convergence methods like L-BFGS are known to be very fast if
started near the optimum. This is what happens in our case; L-BFGS typically
converges in just a few iterations, sometimes one. The time required to evaluate
a clause is in fact dominated by the time required to compute the number of its
true groundings in the data. This time can be greatly reduced using sampling
and other techniques [18].
When learning an MLN from scratch (i.e., from a set of unit clauses), the
natural operator to use is the addition of a literal to a clause. When refining a
hand-coded KB, the goal is to correct the errors made by the human experts.
These errors include omitting conditions from rules and including spurious ones,
and can be corrected by operators that add and remove literals from a clause.
These are the basic operators that we use. In addition, we have found that many
common errors (wrong direction of implication, wrong use of connectives with
quantifiers, etc.) can be corrected at the clause level by flipping the signs of
atoms, and we also allow this. When adding a literal to a clause, we consider all
possible ways in which the literal’s variables can be shared with existing ones,
subject to the constraint that the new literal must contain at least one variable
that appears in an existing one. To control the size of the search space, we set a
limit on the number of distinct variables in a clause. We only try removing literals
from the original hand-coded clauses or their descendants, and we only consider
removing a literal if it leaves at least one path of shared variables between each
pair of remaining literals.
We have implemented two search strategies, one faster and one more complete.
The first approach adds clauses to the MLN one at a time, using beam search
to find the best clause to add: starting with the unit clauses and the expertsupplied ones, we apply each legal literal addition and deletion to each clause,
108 P. D omin gos et al.
keep the b best ones, apply the operators to those, and repeat until no new clause
improves the WPLL. The chosen clause is the one with highest WPLL found in
any iteration of the search. If the new clause is a refinement of a hand-coded
one, it replaces it. (Notice that, even though we both add and delete literals, no
loops can occur because each change must improve WPLL to be accepted.)
The second approach adds k clauses at a time to the MLN, and is similar to
that of McCallum [30]. In contrast to beam search, which adds the best clause
of any length found, this approach adds all “good” clauses of length l before
attempting any of length l + 1. We call it shortest-first search.
The algorithms described in the previous section may be very slow, particularly in large domains. However, they can be greatly sped up using a combination
of techniques described in Kok and Domingos [18]. These include looser convergence thresholds, subsampling atoms and clauses, caching results, and ordering
clauses to avoid evaluating the same candidate clause twice.
Recently, Mihalkova and Mooney [31] introduced BUSL, an alternative, bottom-up structure learning algorithm for Markov logic. Instead of blindly constructing candidate clauses one literal at a time, they let the training data guide
and constrain clause construction. First, they use a propositional Markov network structure learner to generate a graph of relationships among atoms. Then
they generate clauses from paths in this graph. In this way, BUSL focuses on
clauses that have support in the training data. In experiments on three datasets,
BUSL evaluated many fewer candidate clauses than our top-down algorithm,
ran more quickly, and learned more accurate models.
We are currently investigating further approaches to learning MLNs, including automatically inventing new predicates (or, in statistical terms, discovering
hidden variables) [19]

The structure of a Markov logic network is the set of formulas or clauses to
which we attach weights. In principle, this structure can be learned or revised
using any inductive logic programming (ILP) technique. However, since an MLN
represents a probability distribution, much better results are obtained by using
an evaluation function based on pseudo-likelihood, rather than typical ILP ones
like accuracy and coverage [18]. Log-likelihood or conditional log-likelihood are
potentially better evaluation functions, but are vastly more expensive to compute. In experiments on two real-world datasets, our MLN structure learning
algorithm found better MLN rules than CLAUDIEN [6], FOIL [42], Aleph [54],
and even a hand-written knowledge base.
MLN structure learning can start from an empty network or from an existing
KB. Either way, we have found it useful to start by adding all unit clauses
(single atoms) to the MLN. The weights of these capture (roughly speaking)
the marginal distributions of the atoms, allowing the longer clauses to focus on
modeling atom dependencies. To extend this initial model, we either repeatedly
find the best clause using beam search and add it to the MLN, or add all “good”
clauses of length l before trying clauses of length l + 1. Candidate clauses are
formed by adding each predicate (negated or otherwise) to each current clause,
with all possible combinations of variables, subject to the constraint that at least
one variable in the new predicate must appear in the current clause. Hand-coded
clauses are also modified by removing predicates.
We now discuss the evaluation measure, clause construction operators, search
strategy, and speedup methods in greater detail.
As an evaluation measure, pseudo-likelihood (Equation 5) tends to give undue
weight to the largest-arity predicates, resulting in poor modeling of the rest. We
thus define the weighted pseudo-log-likelihood (WPLL) as
Markov L ogic 107
lo g Pw•(X = x) = 
r ∈R
c
r
gr
k
= 1
log Pw(Xr,k = xr,k |MBx(Xr,k)) (7)
where R is the set of first-order atoms, gr is the number of groundings of firstorder atom r, and xr,k is the truth value (0 or 1) of the kth grounding of r. The
choice of atom weights cr depends on the user’s goals. In our experiments, we
simply set cr = 1/gr, which has the effect of weighting all first-order predicates
equally. If modeling a predicate is not important (e.g., because it will always be
part of the evidence), we set its weight to zero. To combat overfitting, we penalize
the WPLL with a structure prior of e −α Fi = 1 di, where di is the number of literals
that differ between the current version of the clause and the original one. (If the
clause is new, this is simply its length.) This is similar to the approach used in
learning Bayesian networks [14].
A potentially serious problem that arises when evaluating candidate clauses
using WPLL is that the optimal (maximum WPLL) weights need to be computed for each candidate. Given that this involves numerical optimization, and
may need to be done thousands or millions of times, it could easily make the algorithm too slow to be practical. We avoid this bottleneck by simply initializing
L-BFGS with the current weights (and zero weight for a new clause). Secondorder, quadratic-convergence methods like L-BFGS are known to be very fast if
started near the optimum. This is what happens in our case; L-BFGS typically
converges in just a few iterations, sometimes one. The time required to evaluate
a clause is in fact dominated by the time required to compute the number of its
true groundings in the data. This time can be greatly reduced using sampling
and other techniques [18].
When learning an MLN from scratch (i.e., from a set of unit clauses), the
natural operator to use is the addition of a literal to a clause. When refining a
hand-coded KB, the goal is to correct the errors made by the human experts.
These errors include omitting conditions from rules and including spurious ones,
and can be corrected by operators that add and remove literals from a clause.
These are the basic operators that we use. In addition, we have found that many
common errors (wrong direction of implication, wrong use of connectives with
quantifiers, etc.) can be corrected at the clause level by flipping the signs of
atoms, and we also allow this. When adding a literal to a clause, we consider all
possible ways in which the literal’s variables can be shared with existing ones,
subject to the constraint that the new literal must contain at least one variable
that appears in an existing one. To control the size of the search space, we set a
limit on the number of distinct variables in a clause. We only try removing literals
from the original hand-coded clauses or their descendants, and we only consider
removing a literal if it leaves at least one path of shared variables between each
pair of remaining literals.
We have implemented two search strategies, one faster and one more complete.
The first approach adds clauses to the MLN one at a time, using beam search
to find the best clause to add: starting with the unit clauses and the expertsupplied ones, we apply each legal literal addition and deletion to each clause,
108 P. D omin gos et al.
keep the b best ones, apply the operators to those, and repeat until no new clause
improves the WPLL. The chosen clause is the one with highest WPLL found in
any iteration of the search. If the new clause is a refinement of a hand-coded
one, it replaces it. (Notice that, even though we both add and delete literals, no
loops can occur because each change must improve WPLL to be accepted.)
The second approach adds k clauses at a time to the MLN, and is similar to
that of McCallum [30]. In contrast to beam search, which adds the best clause
of any length found, this approach adds all “good” clauses of length l before
attempting any of length l + 1. We call it shortest-first search.
The algorithms described in the previous section may be very slow, particularly in large domains. However, they can be greatly sped up using a combination
of techniques described in Kok and Domingos [18]. These include looser convergence thresholds, subsampling atoms and clauses, caching results, and ordering
clauses to avoid evaluating the same candidate clause twice.
Recently, Mihalkova and Mooney [31] introduced BUSL, an alternative, bottom-up structure learning algorithm for Markov logic. Instead of blindly constructing candidate clauses one literal at a time, they let the training data guide
and constrain clause construction. First, they use a propositional Markov network structure learner to generate a graph of relationships among atoms. Then
they generate clauses from paths in this graph. In this way, BUSL focuses on
clauses that have support in the training data. In experiments on three datasets,
BUSL evaluated many fewer candidate clauses than our top-down algorithm,
ran more quickly, and learned more accurate models.
We are currently investigating further approaches to learning MLNs, including automatically inventing new predicates (or, in statistical terms, discovering
hidden variables) [19]

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Cấu trúc của một mạng lưới logic Markov là tập hợp các công thức hoặc các điều khoản đểmà chúng tôi chú trọng lượng. Về nguyên tắc, cấu trúc này có thể được học hoặc sửa đổisử dụng bất kỳ quy nạp logic lập trình (ILP) kỹ thuật. Tuy nhiên, kể từ khi một MLNđại diện cho một phân bố xác suất, kết quả tốt hơn được thu được bằng cách sử dụngmột chức năng đánh giá dựa trên khả năng giả, chứ không phải là điển hình ILP ngườigiống như độ chính xác và phạm vi bảo hiểm [18]. Khả năng đăng nhập hoặc khả năng đăng nhập có điều kiệncó khả năng tốt hơn đánh giá chức năng, nhưng bao la hơn đắt tiền để tính toán. Trong các thí nghiệm trên hai datasets thực thế giới, chúng tôi học tập cấu trúc MLNthuật toán tìm thấy tốt hơn mỗi tỉnh thành quy tắc hơn CLAUDIEN [6], lá [42], Aleph [54],và thậm chí một cơ sở kiến thức viết tay.Mỗi tỉnh thành cấu trúc học tập có thể bắt đầu từ một mạng lưới sản phẩm nào hoặc từ một sẵn cóKB. Dù bằng cách nào, chúng tôi đã tìm thấy nó hữu ích để bắt đầu bằng cách thêm tất cả đơn vị điều khoản(đĩa đơn của nguyên tử) để MLN. Trọng lượng của chúng chiếm (khoảng nói)biên bản phân phối của các nguyên tử, cho phép các điều khoản dài hơn để tập trung vàoMô hình nguyên tử phụ thuộc. Để mở rộng mô hình ban đầu này, chúng tôi hoặc liên tụctìm thấy các khoản tốt nhất bằng cách sử dụng chùm tìm và thêm nó vào MLN, hoặc thêm tất cả "tốt"điều khoản của chiều dài l trước khi thử các điều khoản của chiều dài l + 1. Ứng cử viên khoảnđược hình thành bằng cách thêm mỗi vị ngữ (làm hạn chế hoặc bằng cách khác) cho mỗi khoản hiện tại,với tất cả các tổ hợp các biến, tuân theo các hạn chế đó ítmột biến trong vị ngữ mới phải xuất hiện trong các khoản hiện tại. Tay mã hóamệnh đề cũng được sửa đổi bằng cách loại bỏ predicates.Chúng tôi bây giờ thảo luận về các biện pháp đánh giá, mệnh đề xây dựng nhà khai thác, tìm kiếmchiến lược, và tăng tốc phương pháp chi tiết hơn.Như một biện pháp đánh giá, khả năng giả (phương trình 5) có xu hướng để cung cấp cho quá đángtrọng lượng lớn nhất arity predicates, kết quả là các mô hình nghèo của phần còn lại. Chúng tôido đó xác định trọng pseudo-log-khả năng (WPLL) nhưMarkov L ogic 107lo g Pw•(X = x) =r ∈RcrGRk= 1đăng nhập Pw (Xr, k = xr, k |MBx(Xr,k)) (7)nơi R là tập hợp của các nguyên tử đầu tiên để, gr laø soá löôïng groundings firstorder atom r, và xr, k là giá trị thật (0 hay 1) của nền tảng kth của r. cácsự lựa chọn của nguyên tử trọng lượng cr phụ thuộc vào các mục tiêu của người dùng. Trong các thí nghiệm của chúng tôi, chúng tôichỉ cần đặt cr = 1/gr, có tác dụng hệ số tất cả đầu tiên để predicatesnhư nhau. Nếu mô hình hóa một vị ngữ không phải là quan trọng (ví dụ như, bởi vì nó sẽ luôn luônmột phần của các bằng chứng), chúng tôi đặt trọng lượng của nó bằng không. Để chống lại overfitting, chúng tôi phạtWPLL với một trước khi cấu trúc của e −α Fi = di 1, nơi di laø soá löôïng literalscó khác nhau giữa các phiên bản hiện tại của điều khoản và bản gốc. (Nếu cáckhoản là mới, đây là chỉ đơn giản là chiều dài của nó.) Điều này là tương tự như các phương pháp được sử dụng tronghọc mạng Bayes [14].Một vấn đề nghiêm trọng mà phát sinh khi đánh giá các ứng cử viên điều khoảnbằng cách sử dụng WPLL là tối ưu (tối đa WPLL) trọng lượng cần thiết để được tính cho mỗi ứng cử viên. Cho rằng điều này liên quan đến số tối ưu hóa, vàcó thể cần phải được thực hiện hàng ngàn hoặc hàng triệu lần, nó có thể dễ dàng thực hiện các thuật toán quá chậm để được thực hiện. Chúng tôi tránh nút cổ chai này bằng cách chỉ đơn giản là khởi tạoL-BFGS với trọng lượng hiện tại (và trọng lượng không để một điều khoản mới). Secondorder, hội tụ bậc hai phương pháp như L-BFGS được biết đến là rất nhanh nếubắt đầu gần tối ưu. Đây là những gì xảy ra trong trường hợp của chúng tôi; L-BFGS thườnghội tụ trong chỉ là một vài lặp đi lặp lại, đôi khi một. Thời gian cần thiết để đánh giámột điều khoản trong thực tế bị chi phối bởi thời gian cần thiết để tính toán số lượng của nóđúng groundings trong dữ liệu. Thời gian này có thể được giảm đáng kể bằng cách sử dụng mẫuvà các kỹ thuật khác [18].Khi học một MLN từ đầu (tức là, từ một tập hợp các đơn vị điều khoản), cáctự nhiên nhà điều hành để sử dụng là sự bổ sung của một chữ để một điều khoản. Khi tinh chỉnh mộttay mã hóa KB, mục tiêu là để sửa chữa các lỗi được thực hiện bởi các chuyên gia của con người.Các lỗi bao gồm bỏ qua các điều kiện khỏi các quy tắc và bao gồm cả những giả mạo,và có thể được sửa chữa bởi nhà khai thác thêm và loại bỏ literals từ một mệnh đề.Đây là các nhà điều hành cơ bản mà chúng tôi sử dụng. Ngoài ra, chúng tôi đã thấy rằng nhiềulỗi phổ biến (sai hướng của ngụ ý, sử dụng sai của connectives vớiquantifiers, vv) có thể được sửa chữa ở mức khoản của flipping các dấu hiệu củanguyên tử, và chúng tôi cũng cho phép điều này. Khi thêm một chữ để một điều khoản, chúng tôi xem xét tất cảcó thể có cách, trong đó chữ biến có thể được chia sẻ với những cái hiện có,tuân theo các hạn chế chữ mới phải chứa ít nhất một biếnxuất hiện trong một trong những sẵn có. Để kiểm soát kích thước của không gian tìm kiếm, chúng tôi thiết lập mộtgiới hạn về số lượng các biến khác biệt trong một mệnh đề. Chúng tôi chỉ cố gắng loại bỏ literalstừ Ban đầu tay mã hoá khoản hoặc con cháu của họ, và chúng tôi chỉ xem xétloại bỏ một chữ nếu nó để lại ít nhất một con đường của các biến được chia sẻ giữa mỗiCặp của literals còn lại.Chúng tôi đã thực hiện hai tìm chiến lược, một nhanh hơn và một chi tiết đầy đủ.Cách tiếp cận đầu tiên thêm mệnh đề để mỗi tỉnh thành một lúc một thời gian, bằng cách sử dụng chùm tìmđể tìm khoản tốt nhất để thêm: bắt đầu với các điều khoản của đơn vị và expertsupplied những người, chúng tôi áp dụng mỗi pháp lý bổ sung chữ và xoá cho mỗi khoản,108 P. D omin gos et al.Giữ b cái tốt nhất, áp dụng các nhà điều hành cho những người, và lặp lại cho đến khi không có khoản mớicải thiện WPLL. Điều khoản được lựa chọn là một với WPLL cao nhất được tìm thấy trongbất cứ lặp đi lặp lại của việc tìm kiếm. Nếu các khoản mới là một sàng lọc của một tay mã hoámột, nó sẽ thay thế nó. (Nhận thấy rằng, mặc dù chúng tôi cả hai thêm và xóa literals, khôngvòng có thể xảy ra bởi vì mỗi thay đổi phải cải thiện WPLL để được chấp nhận.)Phương pháp thứ hai cho biết thêm mệnh đề k tại một thời điểm để MLN, và là tương tự nhưlà phó [30]. Trái ngược với tìm kiếm chùm, thêm các khoản tốt nhấtchiều dài bất kỳ tìm thấy, cách tiếp cận này cho biết thêm tất cả các điều khoản "tốt" của chiều dài l trước khicố gắng bất kỳ chiều dài l + 1. Chúng tôi gọi nó là tìm kiếm ngắn nhất.Các thuật toán được mô tả trong phần trước có thể rất chậm, đặc biệt là trong lĩnh vực lớn. Tuy nhiên, họ có thể được rất nhiều tăng tốc lên bằng cách sử dụng một sự kết hợpkỹ thuật được mô tả trong Kok và Domingos [18]. Chúng bao gồm lỏng hơn ngưỡng hội tụ, subsampling nguyên tử và mệnh đề, bộ nhớ đệm kết quả, và đặt hàngđiều khoản để tránh việc đánh giá các khoản ứng cử viên cùng một hai lần.Gần đây, Mihalkova và Mooney [31] giới thiệu BUSL, một thuật toán thay thế, dưới lên cơ cấu học tập cho Markov logic. Thay vì mù quáng xây dựng các ứng cử viên điều khoản một chữ một lúc, họ cho dữ liệu đào tạo hướng dẫnvà cố định các khoản xây dựng. Trước tiên, họ sử dụng một propositional Markov mạng cấu trúc người học để tạo ra một đồ thị của mối quan hệ giữa nguyên tử. Sau đóhọ tạo ra điều khoản từ đường dẫn trong biểu đồ này. Bằng cách này, BUSL tập trung vàođiều khoản có hỗ trợ trong dữ liệu đào tạo. Trong các thí nghiệm trên ba datasets,BUSL đánh giá điều khoản ứng cử viên ít hơn nhiều so với các thuật toán trên xuống của chúng tôi,chạy nhanh hơn, và học được các mô hình chính xác hơn.Chúng tôi hiện đang điều tra thêm phương pháp tiếp cận để học MLNs, bao gồm tự động phát minh ra mới predicates (hoặc, trong điều kiện thống kê, khám pháẩn biến) [19]

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Cấu trúc của một mạng logic của Markov là tập hợp các công thức hoặc điều khoản để
mà chúng tôi chú trọng. Về nguyên tắc, cấu trúc này có thể được học hoặc được sửa đổi
bằng cách sử dụng bất kỳ kỹ thuật lập trình logic quy nạp (ILP). Tuy nhiên, kể từ khi một MLN
đại diện cho một phân phối xác suất, kết quả tốt hơn nhiều thu được bằng cách sử dụng
một chức năng đánh giá dựa trên giả khả năng, chứ không phải là những người ILP điển hình
như độ chính xác và độ bao phủ [18]. Đăng nhập-likelihood hoặc có điều kiện log-likelihood là
có khả năng đánh giá chức năng tốt hơn, nhưng là bao la đắt hơn để tính toán. Trong các thí nghiệm trên hai tập dữ liệu thực tế, học tập MLN cấu trúc của chúng tôi
tìm thấy thuật toán tốt hơn MLN quy tắc hơn CLAUDIEN [6], lá [42], Aleph [54],
và thậm chí là một cơ sở kiến thức viết tay.
MLN học cấu trúc có thể bắt đầu từ một mạng lưới trống hoặc từ một hiện
KB. Dù bằng cách nào, chúng tôi đã tìm thấy nó hữu ích để bắt đầu bằng cách thêm tất cả các điều khoản đơn vị
(các nguyên tử đơn) đến MLN. Trọng lượng của những chụp (khoảng nói)
phân bố biên của các nguyên tử, cho phép các khoản thời gian để tập trung vào
phụ thuộc mô hình nguyên tử. Để mở rộng mô hình ban đầu này, chúng ta hoặc là liên tục
tìm thấy những điều khoản tốt nhất sử dụng tìm kiếm beam và thêm nó vào MLN, hoặc thêm cả "tốt"
khoản của chiều dài l khoản trước khi cố gắng chiều dài l + 1. khoản Ứng viên được
hình thành bằng cách thêm mỗi vị (phủ nhận hoặc không) cho mỗi khoản hiện tại,
với tất cả các kết hợp có thể có của các biến, chịu sự ràng buộc mà ít nhất
một biến số trong các vị mới phải xuất hiện trong mệnh đề hiện tại. Hand-mã hóa
các khoản cũng được thay đổi bằng cách loại bỏ các vị.
Bây giờ chúng ta thảo luận về các biện pháp đánh giá, khai thác công trình khoản, tìm kiếm
chiến lược và phương pháp tăng tốc trong chi tiết hơn.
Như một biện pháp đánh giá, pseudo-likelihood (Equation 5) có xu hướng đưa ra không đáng có
trọng lượng tới lớn nhất-arity predicates, dẫn đến mô hình nghèo của phần còn lại. Chúng tôi
do đó xác định trọng pseudo-log-likelihood (WPLL) như
Markov L ogic 107
g lo Pw • (X = x) =?
r ∈R
c
r
gr
k?
= 1
log Pw (Xr, k = xr, k | MBX (Xr, k)) (7)
trong đó R là tập hợp các nguyên tử đầu tiên đặt hàng, gr là số groundings của nguyên tử firstorder r, và xr, k là giá trị thật (0 hoặc 1) của nền tảng thứ k của r. Việc
lựa chọn trọng lượng nguyên tử cr phụ thuộc vào mục tiêu của người dùng. Trong thí nghiệm của chúng tôi, chúng tôi
chỉ đơn giản là đặt cr = 1 / gr, trong đó có các tác dụng của trọng số tất cả các bậc vị
không kém. Nếu mô hình hóa một vị là không quan trọng (ví dụ, bởi vì nó sẽ luôn luôn là
một phần của các bằng chứng), chúng tôi đặt trọng lượng của nó không. Để chống overfitting, chúng ta trừng phạt
các WPLL với một cấu trúc trước của e -α Fi = 1 di, nơi di là số các chữ
đó khác nhau giữa các phiên bản hiện tại của các khoản và các bản gốc. (Nếu
mệnh đề là mới, điều này chỉ đơn giản là chiều dài của nó.) Điều này cũng tương tự như các phương pháp được sử dụng trong
việc học mạng Bayes [14].
Một vấn đề nghiêm trọng tiềm tàng phát sinh khi đánh giá các khoản ứng viên
sử dụng WPLL là tối ưu (WPLL tối đa) trọng lượng cần phải được tính toán cho mỗi ứng cử viên. Cho rằng đây liên quan đến việc tối ưu hóa số, và
có thể cần phải được thực hiện hàng ngàn hoặc hàng triệu lần, nó có thể dễ dàng thực hiện các thuật toán quá chậm để được thực tế. Chúng ta tránh nghẽn này bằng cách đơn giản khởi
L-BFGS với trọng lượng hiện tại (và không cân đối với một điều khoản mới). Secondorder, phương pháp bậc hai tụ như L-BFGS được biết đến là rất nhanh, nếu
bắt đầu gần tối ưu. Đây là những gì xảy ra trong trường hợp của chúng tôi; L-BFGS thường
hội tụ chỉ trong một vài lần lặp lại, đôi khi một. Thời gian cần thiết để đánh giá
một điều khoản là trong thực tế bị chi phối bởi thời gian cần thiết để tính toán số lượng của nó
groundings đúng trong các dữ liệu. Thời gian này có thể được giảm đáng kể sử dụng lấy mẫu
và kỹ thuật khác [18].
Khi học một MLN từ đầu (tức là, từ một tập hợp các điều khoản đơn vị), các
nhà điều hành tự nhiên để sử dụng là việc bổ sung thêm một chữ để một mệnh đề. Khi tinh chỉnh một
mã hóa bằng tay KB, mục tiêu là để sửa chữa sai sót được thực hiện bởi các chuyên gia của con người.
Những lỗi này bao gồm các điều kiện Không ghi từ các quy định và bao gồm cả những người giả mạo,
và có thể được sửa chữa bằng cách khai thác thêm và loại bỏ các chữ từ một mệnh đề.
Đây là những các nhà khai thác cơ bản mà chúng ta sử dụng. Ngoài ra, chúng tôi đã phát hiện ra rằng nhiều
lỗi phổ biến (sai hướng của ý nghĩa, sử dụng sai các từ nối với
định lượng, vv) có thể được điều chỉnh ở mức độ khoản bằng cách lật các dấu hiệu của
các nguyên tử, và chúng tôi cũng cho phép điều này. Khi thêm một chữ để một điều khoản, chúng tôi xem xét tất cả
những cách có thể trong đó các biến của chữ có thể được chia sẻ với những cái hiện có,
chịu sự ràng buộc về nghĩa đen mới phải có ít nhất một biến
xuất hiện trong một hiện tại. Để kiểm soát kích thước của không gian tìm kiếm, chúng tôi thiết lập một
giới hạn về số lượng các biến riêng biệt trong một mệnh đề. Chúng tôi chỉ cố gắng loại bỏ các chữ
từ các khoản tay mã hóa ban đầu hoặc con cháu của họ, và chúng tôi chỉ xem xét
loại bỏ một chữ nếu nó lá ít nhất một con đường của các biến được chia sẻ giữa mỗi
cặp chữ còn lại.
Chúng tôi đã thực hiện hai chiến lược tìm kiếm, một nhanh hơn và . một hoàn chỉnh hơn
các phương pháp tiếp cận đầu tiên thêm khoản vào một trong các MLN tại một thời điểm, sử dụng tìm kiếm beam
để tìm các điều khoản tốt nhất để thêm: bắt đầu với các điều khoản đơn vị và những người expertsupplied, chúng tôi áp dụng mỗi lần thêm chữ pháp lý và xóa từng khoản,
108 P. D omin gos et al.
giữ cho b cái tốt nhất, áp dụng các toán tử để những người, và lặp lại cho đến khi không có điều khoản mới
cải thiện WPLL. Các khoản được chọn là một trong những với WPLL cao nhất được tìm thấy ở
bất cứ lặp đi lặp lại của việc tìm kiếm. Nếu mệnh mới là một sự tinh tế của một bàn tay mã
một, nó thay thế nó. (Chú ý rằng, mặc dù cả hai chúng tôi thêm và xóa chữ, không có
vòng lặp có thể xảy ra bởi vì mỗi thay đổi phải cải thiện WPLL để được chấp nhận.)
Phương pháp thứ hai cho biết thêm k khoản tại một thời gian để các MLN, và cũng tương tự như
của McCallum [30 ]. Ngược lại để tìm kiếm beam, có thêm các điều khoản tốt nhất
của bất kỳ chiều dài được tìm thấy, cách tiếp cận này cho biết thêm tất cả "tốt" khoản của chiều dài l trước khi
thử bất kỳ chiều dài l + 1. Chúng tôi gọi nó là tìm kiếm ngắn nhất đầu tiên.
Các thuật toán được mô tả trong các trước phần có thể rất chậm, đặc biệt là trong các lĩnh vực lớn. Tuy nhiên, họ có thể được tăng tốc đáng kể bằng cách sử dụng một sự kết hợp
của kỹ thuật mô tả trong Kok và Domingos [18]. Chúng bao gồm các ngưỡng lỏng tụ, các nguyên tử mẫu phụ, khoản, kết quả bộ nhớ đệm, và đặt hàng
các điều khoản để tránh việc đánh giá các khoản ứng viên tương tự hai lần.
Gần đây, Mihalkova và Mooney [31] giới thiệu BUSL, một sự thay thế, thuật toán học của cấu trúc dưới lên cho logic Markov. Thay vì mù quáng xây dựng các khoản ứng viên một đen một lúc, họ để cho dẫn dữ liệu huấn luyện
và hạn chế xây dựng mệnh đề. Đầu tiên, họ sử dụng một mệnh đề Markov cấu trúc mạng người học để tạo ra một đồ thị của các mối quan hệ giữa các nguyên tử. Sau đó,
họ tạo điều từ con đường trong đồ thị này. Bằng cách này, BUSL tập trung vào
các khoản có hỗ trợ trong dữ liệu huấn luyện. Trong các thí nghiệm trên ba bộ dữ liệu,
đánh giá BUSL nhiều điều khoản ứng cử viên ít hơn so với thuật toán của chúng tôi từ trên xuống,
chạy nhanh hơn, và học được mô hình chính xác hơn.
Chúng tôi hiện đang khảo sát thêm để MLNs học, bao gồm cả tự động phát minh vị mới (hoặc, trong thuật ngữ thống kê , Sự khám phá
các biến ẩn) [19]

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.