The Label Bias ProblemClassical pro

The Label Bias Problem
Classical probabilistic automata (Paz, 1971), discriminative
Markov models (Bottou, 1991), maximum entropy
taggers (Ratnaparkhi, 1996), and MEMMs, as well as
non-probabilistic sequence tagging and segmentation models
with independently trained next-state classifiers (Punyakanok&
Roth, 2001) are all potential victims of the label
bias problem.
For example, Figure 1 represents a simple finite-state
model designed to distinguish between the two words rib
and rob. Suppose that the observation sequence is r i b.
In the first time step, r matches both transitions from the
start state, so the probability mass gets distributed roughly
equally among those two transitions. Next we observe i.
Both states 1 and 4 have only one outgoing transition. State
1 has seen this observation often in training, state 4 has almost
never seen this observation; but like state 1, state 4
has no choice but to pass all its mass to its single outgoing
transition, since it is not generating the observation, only
conditioning on it. Thus, states with a single outgoing transition
effectively ignore their observations. More generally,
states with low-entropy next state distributions will take little
notice of observations. Returning to the example, the
top path and the bottom path will be about equally likely,
independently of the observation sequence. If one of the
two words is slightly more common in the training set, the
transitions out of the start state will slightly prefer its corresponding
transition, and that word’s state sequence will
always win. This behavior is demonstrated experimentally
in Section 5.
L´eon Bottou (1991) discussed two solutions for the label
bias problem. One is to change the state-transition struc ture of the model. In the above example we could collapse
states 1 and 4, and delay the branching until we get a discriminating
observation. This operation is a special case
of determinization (Mohri, 1997), but determinization of
weighted finite-state machines is not always possible, and
even when possible, it may lead to combinatorial explosion.
The other solution mentioned is to start with a fullyconnected
model and let the training procedure figure out
a good structure. But that would preclude the use of prior
structural knowledge that has proven so valuable in information
extraction tasks (Freitag & McCallum, 2000).
Proper solutions require models that account for whole
state sequences at once by letting some transitions “vote”
more strongly than others depending on the corresponding
observations. This implies that score mass will not be conserved,
but instead individual transitions can “amplify” or
“dampen” the mass they receive. In the above example, the
transitions from the start state would have a very weak effect
on path score, while the transitions from states 1 and 4
would have much stronger effects, amplifying or damping
depending on the actual observation, and a proportionally
higher contribution to the selection of the Viterbi path.3
In the related work section we discuss other heuristic model
classes that account for state sequences globally rather than
locally. To the best of our knowledge, CRFs are the only
model class that does this in a purely probabilistic setting,
with guaranteed global maximum likelihood convergence.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Vấn đề nhãn hiệu thiên vịCổ điển xác suất automata (Paz, 1971), discriminativeMô hình Markov (Bottou, 1991), tối đa entropytaggers (Ratnaparkhi, 1996), và MEMMs, cũng nhưMô hình không phải là xác suất tự gắn thẻ và phân khúcvới máy phân loại trạng thái tiếp theo được đào tạo một cách độc lập (Punyakanok &Roth, 2001) là tất cả các nạn nhân tiềm năng của nhãnvấn đề thiên vị.Ví dụ: hình 1 đại diện cho một đơn giản hữu hạn nhà nướcMô hình được thiết kế để phân biệt giữa hai từ sườnvà cướp. Giả sử rằng trình tự quan sát là r i b.Trong thời gian bước đầu tiên, r phù hợp với cả hai quá trình chuyển đổi từ cácbắt đầu nhà nước, vì vậy khả năng khối lượng được phân phối khoảngbình đẳng trong số những người hai quá trình chuyển đổi. Tiếp theo, chúng tôi quan sát tôi.Cả hai kỳ 1 và 4 có chỉ có một chuyển tiếp đi. Nhà nước1 có thấy quan sát này thường trong việc đào tạo, nhà nước 4 đã gần nhưkhông bao giờ nhìn thấy quan sát này; nhưng như nhà nước 1, nhà nước 4đã không có sự lựa chọn nhưng để vượt qua tất cả các khối lượng của nó để nó đi duy nhấtchuyển tiếp, vì nó không phải là tạo ra các quan sát, chỉlạnh trên nó. Vì vậy, các tiểu bang với một chuyển đổi đi duy nhấthiệu quả bỏ qua quan sát của họ. Nói chung,Kỳ với dữ liệu ngẫu nhiên thấp tiếp theo nhà nước phân phối sẽ có ítthông báo của các quan sát. Quay trở lại ví dụ, cáctrên con đường và đường dẫn phía dưới sẽ về đều có khả năng,độc lập với trình tự quan sát. Nếu một trong cáchai từ là phổ biến hơn một chút trong bộ đào tạo, cácchuyển ra khỏi nhà nước bắt đầu hơi thích tương ứng của nóquá trình chuyển đổi, và từ đó nhà nước tự sẽluôn luôn giành chiến thắng. Hành vi này được chứng minh bằng thực nghiệmtrong phần 5.L´EON Bottou (1991) thảo luận về hai giải pháp cho các nhãnvấn đề thiên vị. Một là để thay đổi trạng thái chuyển tiếp struc ture của mô hình. Trong ví dụ trên, chúng ta có thể sụp đổkỳ 1 và 4, và sự chậm trễ phân nhánh cho đến khi chúng tôi nhận được một phân biệt đối xửquan sát. Thao tác này là một trường hợp đặc biệtdeterminization (Mohri, 1997), nhưng determinization củatrọng hữu hạn nhà nước máy là không luôn luôn có thể, vàngay cả khi có thể, nó có thể dẫn đến vụ nổ tổ hợp.Giải pháp được đề cập là bắt đầu với một fullyconnectedMô hình và để cho các thủ tục đào tạo ramột cấu trúc tốt. Nhưng đó sẽ ngăn cản việc sử dụng từ trướccấu trúc các kiến thức đã chứng minh rất có giá trị thông tinnhiệm vụ khai thác (Freitag & phó, 2000).Phù hợp các giải pháp đòi hỏi mô hình cho toàn bộ tài khoảnnhà nước trình tự cùng một lúc bằng cách cho phép một số quá trình chuyển đổi "bầu"mạnh mẽ hơn những người khác tùy thuộc vào tương ứngquan sát. Điều này ngụ ý rằng khối lượng điểm sẽ không được bảo tồn,nhưng thay vì quá trình chuyển đổi cá nhân có thể "khuyếch đại" hoặc"nản chí" khối lượng mà họ nhận được. Trong ví dụ trên, cácquá trình chuyển đổi từ trạng thái bắt đầu sẽ có một ảnh hưởng rất yếutrên đường dẫn điểm, trong khi quá trình chuyển đổi từ kỳ 1 và 4sẽ có nhiều tác dụng mạnh hơn, khuyếch đại hoặc giảmtùy thuộc vào các quan sát thực tế, và một tỷ lệcao đóng góp cho sự lựa chọn của Viterbi path.3Trong phần công việc liên quan đến chúng tôi thảo luận về mô hình heuristic khácCác lớp học rằng tài khoản cho bang chuỗi toàn cầu chứtại địa phương. Tốt nhất của kiến thức của chúng tôi, CRFs là duy nhấtMô hình lớp học mà thực hiện điều này trong một khung cảnh hoàn toàn xác suất,với đảm bảo khả năng tối đa toàn cầu hội tụ.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Nhãn Bias Vấn đề
cổ điển automata xác suất (Paz, 1971), phân biệt
mô hình Markov (Bottou, 1991), entropy tối đa
người gắn thẻ (Ratnaparkhi, 1996), và MEMMs, cũng như
không xác suất mô hình gắn thẻ tự và phân đoạn
với đào tạo next- độc lập phân loại trạng thái (Punyakanok &
Roth, 2001) là tất cả các nạn nhân tiềm năng của các nhãn
vấn đề thiên vị.
Ví dụ, hình 1 là một hữu hạn nhà nước đơn giản
mô hình được thiết kế để phân biệt giữa hai từ xương sườn
và cướp. Giả sử rằng trình tự quan sát được ri b.
Trong thời gian bước đầu tiên, r phù hợp với cả hai chuyển từ
trạng thái bắt đầu, vì vậy khối lượng xác suất được phân phối gần
bằng nhau giữa hai quá trình chuyển đổi. Tiếp theo chúng ta quan sát tôi.
Cả hai trạng thái 1 và 4 chỉ có một chuyển tiếp đi. Nhà nước
1 đã nhìn thấy sự quan sát này thường trong đào tạo, nhà nước 4 đã gần như
không bao giờ nhìn thấy sự quan sát này; nhưng cũng giống như trạng thái 1, tiểu bang 4
không có sự lựa chọn nhưng để vượt qua tất cả khối lượng của nó để đi duy nhất của nó
chuyển tiếp, vì nó không phải là tạo ra những quan sát, chỉ có
điều trên đó. Do đó, các tiểu bang có một sự chuyển tiếp đi duy nhất
bỏ qua hiệu quả quan sát của họ. Tổng quát hơn,
các tiểu bang có entropy thấp tới phân bố trạng thái sẽ có ít
thông báo của các quan sát. Quay trở lại với ví dụ này, các
con đường trên và đường dẫn phía dưới sẽ về đều có khả năng,
độc lập của chuỗi quan sát. Nếu một trong những
hai từ này là hơi phổ biến hơn trong tập huấn luyện, các
hiệu ứng chuyển tiếp ra khỏi trạng thái bắt đầu sẽ hơi thích tương ứng của nó
chuyển đổi, và chuỗi nhà nước từ đó sẽ
luôn luôn giành chiến thắng. Hành vi này được chứng minh bằng thực nghiệm
trong phần 5.
L'eon Bottou (1991) thảo luận về hai giải pháp cho các nhãn
vấn đề thiên vị. Một là để thay đổi trạng thái phiên struc ture của mô hình. Trong ví dụ trên, chúng ta có thể sụp đổ
bang 1 và 4, và trì hoãn việc phân nhánh cho đến khi chúng tôi có được một phân biệt
quan sát. Hoạt động này là một trường hợp đặc biệt
của determinization (Mohri, 1997), nhưng determinization của
máy hữu hạn nhà nước có trọng không phải là luôn luôn có thể, và
ngay cả khi có thể, nó có thể dẫn đến sự bùng nổ tổ hợp.
Các giải pháp khác được đề cập là bắt đầu với một fullyconnected
mô hình và để cho các thủ tục đào tạo ra
một cấu trúc tốt. Nhưng điều đó sẽ ngăn cản việc sử dụng trước khi
kiến thức cơ cấu đã được chứng minh rất có giá trị trong thông tin
nhiệm vụ khai thác (Freitag & McCallum, 2000).
Giải pháp đúng yêu cầu mô hình chiếm toàn bộ
chuỗi nhà nước cùng một lúc bằng cách cho phép một số chuyển "bỏ phiếu"
mạnh mẽ hơn những người khác tùy thuộc vào tương ứng
quan sát. Điều này ngụ ý rằng điểm số khối lượng sẽ không được bảo tồn,
nhưng quá trình chuyển đổi thay vì cá nhân có thể "khuếch đại" hay
"làm yếu" của đại chúng mà họ nhận được. Trong ví dụ trên,
chuyển từ trạng thái khởi đầu sẽ có ảnh hưởng rất yếu
về số con đường, trong khi quá trình chuyển đổi từ trạng thái 1 và 4
sẽ có tác dụng mạnh hơn rất nhiều, khuếch đại hoặc giảm xóc
tùy thuộc vào quan sát thực tế, và một tỷ lệ
đóng góp cao hơn để việc lựa chọn các path.3 Viterbi
trong phần công việc liên quan, chúng tôi thảo luận về mô hình heuristic, khác
lớp mà chiếm chuỗi nhà nước chứ không phải trên toàn cầu so với
địa phương. Để tốt nhất của kiến thức của chúng tôi, CRFs là chỉ có
mô hình lớp học mà thực hiện điều này trong một khung cảnh hoàn toàn xác suất,
với đảm bảo toàn cầu hội tụ khả năng tối đa.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.