Multiclass Classification9.520 Clas

Multiclass Classification
9.520 Class 06, 25 Feb 2008
Ryan Rifkin
“It is a tale
Told by an idiot, full of sound and fury,
Signifying nothing.”
Macbeth, Act V, Scene V
What Is Multiclass Classification?
Each training point belongs to one of
N different classes.
The goal is to construct a function which, given a new
data point, will correctly predict the class to which the
new point belongs.
What Isn’t Multiclass Classification?
There are many scenarios in which there are multiple categories
to which points belong, but a given point can belong
to multiple categories. In its most basic form, this problem
decomposes trivially into a set of unlinked binary problems,
which can be solved naturally using our techniques for binary
classification.
A First Idea
Suppose we knew the density, pi(x), for each of the N
classes. Then, we would predict using
f(x) = arg max i∈1,...,N pi(x).
Of course we don’t know the densities, but we could estimate
them using classical techniques.
The Problem With Densities, and
Motivation
Estimating densities is hard, especially in high dimension
s
with limited data.
For binary classification tasks, we have seen that directly
estimating a smooth separating function gives better results
than density estimation (SVM, RLSC). Can we extend
these approaches usefully to the multiclass scenario?
A Simple Idea — One-vs-All
Classification
Pick a good technique for building binary classifiers (e.g.,
RLSC, SVM). Build
N different binary classifiers. For the
ith classifier, let the positive examples be all the points in
class
i, and let the negative examples be all the points not
in class
i. Let
fi be the
ith classifier. Classify with
f
(
x) = arg max
i
fi
(
x
).
Another Simple Idea — All-vs-All
Classification
Build
N
(
N
−1) classifiers, one classifier to distinguish each
pair of classes
i and
j. Let
fij be the classifier where class
i were positive examples and class
j were negative. Note
fji
=
−
fij
. Classify using
f
(
x) = arg max
i


X
j
fij
(
x
)

 .
Also called all-pairs or one-vs-one classification.
The Truth
OVA and AVA are so simple that many people invented
them independently. It’s hard to write papers about them.
So there’s a whole cottage industry in fancy, sophisticated
methods for multiclass classification.
To the best of my knowledge, choosing properly tuned
regularization classifiers (RLSC, SVM) as your underlying
binary classifiers and using one-vs-all (OVA) or all-vs-all
(AVA) works as well as anything else you can do.
If you actually have to solve a multiclass problem, I strongly
urge you to simply use OVA or AVA, and not worry about
anything else. The choice between OVA and AVA is largely
computational.
OVA vs. AVA
Viewed naively, AVA seems faster and more memory effi-
cient. It requires O(N2) classifiers instead of O(N), but
each classifier is (on average) much smaller. If the time to
build a classifier is superlinear in the number of data points,
AVA is a better choice. With SVMs, AVA’s probably best.
However, if you can solve one RLS problem over your entire
data set using a matrix factorization, you get multiclass
classification essentially for free (see RLS lecture). So
with RLS, OVA’s a great choice.
Other Approaches
There have been two basic approaches to extending regularization
ideas to multiclass classification:
• “Single Machine” approaches — try to solve a single
optimization problem that trains many binary classifiers
simultaneously.
• “Error Correcting Code” approaches — try to combine
binary classifiers in a way that lets you exploit decorrelations
and correct errors.
These approaches are not completely exclusive.
Weston and Watkins, Vapnik
The first “single machine” approach:
min
f1,...,
fN∈H,ξ
∈
R
ℓ(N
−
1)
P
N
i=1 ||
fi||
2
K
+
C
P
ℓ
i=1
P
j
6=
yi
ξij
subject to :
fyi
(
xi) +
b
yi ≥
fj
(
xi) +
b
j + 2
−
ξij
ξij
≥
0
Key idea. Suppose that point
i is in class
y
i. Then, for
j
6=
y
i, we want (abusing our notation w.r.t.
b),
fyi
(
xi
)
−
fj
(
xi
)
≥
2,
or we pay a linear penalty of
ξij
.
WW Analysis I
This idea seems intuitively reasonable. Is it good?
Weston and Watkins perform experiments. On 2 out of 5
datasets, they find that their approach performs substantially
better than OVA, and about the same on the rest.
However, they state that “to enable comparison, for each
algorithm C = ∞ was chosen (the training data must be
classified without error),” so they are performing ERM,
not regularization (C = ∞ ⇐⇒ λ = 0). A Gaussian kernel
was used, with σ the same for each method (not necessarily
a good idea), and no information about how this σ was
chosen.
WW Analysis II
Under what circumstances would we expect this method to
outperform a OVA approach? Tough to say. We’d need
a situation where it would be hard to actually separate
the data, but where there exist meaningful subsets of the
data where even though we can’t assign a positive value
to the correct class, we can assign a less negative value
to it than other classes. Or, we need subsets where even
though we’r

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Phân loại multiclass9.520 lớp 06, 25 tháng hai 2008Ryan Rifkin"Đó là một câu chuyệnNói bởi một idiot, đầy đủ âm thanh và fury,Biểu hiện không có gì."Macbeth, Act V, Scene VMulticlass phân loại là gì?Mỗi điểm đào tạo thuộc về một trongN các lớp khác nhau.Mục tiêu là để xây dựng một chức năng đó, đưa ra một mớidữ liệu điểm, một cách chính xác sẽ dự đoán các lớp học mà cácđiểm mới thuộc về.Những gì không phải là Multiclass phân loại?Có rất nhiều tình huống mà trong đó có rất nhiều thể loạimà điểm thuộc, nhưng một điểm cho trước có thể thuộc vềvới nhiều thể loại. Ở dạng cơ bản nhất của nó, vấn đề nàyphân hủy trivially thành một tập hợp các vấn đề bỏ liên kết nhị phân,mà có thể được giải quyết tự nhiên bằng cách sử dụng kỹ thuật của chúng tôi cho nhị phânphân loại.Một ý tưởng đầu tiênGiả sử chúng ta biết mật độ, pi(x), cho mỗi NCác lớp học. Sau đó, chúng tôi sẽ dự đoán bằng cách sử dụngf (x) = arg tối đa i∈1,..., N pi(x).Tất nhiên chúng tôi không biết các mật độ, nhưng chúng tôi có thể ước tínhhọ sử dụng kỹ thuật cổ điển.Vấn đề với mật độ, vàĐộng lựcƯớc tính mật độ khó khăn, đặc biệt là trong chiều caosvới giới hạn dữ liệu.Đối với nhiệm vụ phân loại nhị phân, chúng ta đã thấy rằng trực tiếpước tính một hàm tách mịn màng sẽ cho kết quả tốt hơnso với mật độ dự toán (SVM, RLSC). Chúng tôi có thể mở rộngnhững phương pháp hữu ích để các kịch bản multiclass?Một ý tưởng đơn giản-Một-vs-tất cảPhân loạiChọn một kỹ thuật tốt để xây dựng máy phân loại nhị phân (ví dụ:RLSC, SVM). Xây dựngMáy phân loại nhị phân khác N. Đối với cácith loại, cho ví dụ tích cực là tất cả các điểm tronglớp họctôi, và để cho các ví dụ tiêu cực là tất cả các điểm khôngtrong lớp họci. choFi cácloại thứ i. Phân loại vớif(x) = arg tối đatôiFi(x).Một ý tưởng đơn giản-Tất cả-vs-tất cảPhân loạiXây dựngN(NMáy phân loại −1), một loại để phân biệt với mỗiCặp của các lớp họctôi vàj. chofij là loại lớp học nơiTôi đã là tích cực các ví dụ và các lớp họcj đã được tiêu cực. Lưu ýfji=−fij. Phân loại bằng cách sử dụngf(x) = arg tối đatôiXjfij(x).Cũng được gọi là tất cả-cặp hoặc vs một phân loại.Sự thậtOVA và AVA là đơn giản như vậy mà nhiều người đã phát minh rahọ độc lập. Thật khó để viết bài báo về họ.Vì vậy, không có một ngành công nghiệp toàn bộ tiểu trong ưa thích, tinh viphương pháp xếp hạng multiclass.Tốt nhất của kiến thức của tôi, việc lựa chọn điều chỉnh đúng cáchregularization máy phân loại (RLSC, SVM) như của bạn tiềm ẩnMáy phân loại nhị phân và cách sử dụng một-vs-tất cả (OVA) hoặc tất cả-vs-tất cả(AVA) hoạt động cũng như bất cứ điều gì khác mà bạn có thể làm.Nếu bạn thực sự phải giải quyết một vấn đề multiclass, tôi mạnh mẽmong bạn chỉ cần sử dụng trứng hoặc AVA, và không phải lo lắng vềCòn gì nữa không. Sự lựa chọn giữa các OVA và AVA là chủ yếutính toán.OVA vs AVAXem naively, AVA có vẻ nhanh hơn và bộ nhớ thêm effi -gói. Nó đòi hỏi máy phân loại O(N2) thay vì O(N), nhưngmỗi loại (trung bình) nhỏ hơn nhiều. Nếu thời gian đểxây dựng một loại là superlinear số lượng các điểm dữ liệu,AVA là một lựa chọn tốt hơn. Với SVMs, AVA là tốt nhất.Tuy nhiên, nếu bạn có thể giải quyết một vấn đề RLS lên toàn bộ của bạndữ liệu thiết lập bằng cách sử dụng một factorization ma trận, bạn nhận được multiclassphân loại cơ bản cho miễn phí (xem bài giảng RLS). Vì vậyvới RLS, OVA của một sự lựa chọn tuyệt vời.Phương pháp tiếp cận khácĐã có hai phương pháp tiếp cận cơ bản để mở rộng regularizationý tưởng để multiclass phân loại:• Phương pháp tiếp cận "Máy"-cố gắng giải quyết một đĩa đơnvấn đề tối ưu hóa đào tạo nhiều máy phân loại nhị phâncùng một lúc.• "Lỗi sửa chữa mã" phương pháp tiếp cận-cố gắng để kết hợpMáy phân loại nhị phân trong một cách mà cho phép bạn khai thác decorrelationsvà sửa lỗi.Những cách tiếp cận không hoàn toàn độc quyền.Weston và Watkins, VapnikCác phương pháp đầu tiên của "máy":MinF1,...,fN∈H, ξ∈Rℓ (N−1)PNi = 1 ||Fi ||2K+CPℓi = 1Pj6 =YiΞijtùy thuộc vào:FYI(Xi) +bYi ≥FJ(Xi) +bj + 2−ΞijΞij≥0Ý tưởng chính. Giả sử rằng điểmtôi là trong lớp họcyi. sau đó, choj6 =ytôi, chúng tôi muốn (lạm dụng chúng tôi ký hiệu w.r.t.b),FYI(Xi)−FJ(Xi)≥2,hoặc chúng tôi phải trả tiền phạt tuyến tính làΞij.WW phân tích tôiÝ tưởng này có vẻ hợp lý bằng trực giác. Nó là tốt?Weston và Watkins thực hiện thí nghiệm. 2 trong số 5datasets, họ tìm cách tiếp cận của họ thực hiện đáng kểtốt hơn so với trứng, và thông tin về giống trên phần còn lại.Tuy nhiên, họ nhà nước rằng "để cho phép so sánh, cho mỗithuật toán C = ∞ đã được lựa chọn (đào tạo dữ liệu phảiphân loại mà không có lỗi),"vì vậy, họ đang thực hiện ERM,không regularization (C = ∞ ⇐⇒ λ = 0). Một hạt nhân Gaussiansử dụng, với σ giống nhau cho mỗi phương pháp (không nhất thiết phảimột ý tưởng tốt), và không có thông tin về việc làm thế nào này σ đãlựa chọn.Phân tích WW IITrong trường hợp những gì chúng tôi mong muốn phương pháp này đểtốt hơn một cách tiếp cận trứng? Khó khăn để nói. Chúng tôi cầnmột tình huống mà nó sẽ là khó khăn để thực sự riêng biệtcác dữ liệu, nhưng cũng có nơi có con có ý nghĩa của cácdữ liệu nơi mặc dù chúng tôi không thể chỉ định một giá trị tích cựcđến lớp đúng, chúng ta có thể gán một giá trị ít hơn tiêu cựcnó so với các lớp khác. Hoặc, chúng ta cần con trong trường hợp thậm chímặc dù we'r

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Nhiều lớp Phân
9,520 Lớp 06, ngày 25 tháng hai năm 2008
Ryan Rifkin
"Đó là một câu chuyện
đã nói với bằng một thằng ngốc, đầy âm thanh và cuồng nộ,
biểu hiện gì."
Macbeth, Act V, cảnh V
nhiều lớp phân loại là gì?
Mỗi điểm đào tạo thuộc một trong
N lớp khác nhau.
mục đích là để xây dựng một chức năng mà, đưa ra một mới
điểm dữ liệu, một cách chính xác sẽ dự đoán lớp mà
điểm mới thuộc.
những gì không phải là nhiều lớp phân loại?
có rất nhiều kịch bản trong đó có nhiều loại
mà điểm thuộc, nhưng một điểm nhất định có thể thuộc
vào nhiều loại. Trong hình thức cơ bản nhất của nó, vấn đề này
phân hủy trivially vào một loạt các vấn đề nhị phân không liên kết,
trong đó có thể được giải quyết một cách tự nhiên bằng các kỹ thuật của chúng tôi cho nhị
phân.
Một ý tưởng đầu tiên
Giả sử chúng ta biết mật độ, pi (x), cho từng tồn tại
các lớp học . Sau đó, chúng ta sẽ dự đoán sử dụng
f (x) = arg i∈1 max, ..., N pi (x).
Tất nhiên, chúng tôi không biết mật độ, nhưng chúng ta có thể ước tính
họ sử dụng kỹ thuật cổ điển.
Vấn đề Với Mật độ và
Động lực
ước tính mật độ là khó khăn, đặc biệt là ở kích thước cao
s
với dữ liệu hạn chế.
Đối với nhiệm vụ phân loại nhị phân, chúng ta đã thấy rằng trực tiếp
ước lượng một hàm phân cách trơn tru cho kết quả tốt
hơn so với ước tính mật độ (SVM, RLSC). Chúng ta có thể mở rộng
các phương pháp hữu ích để các kịch bản nhiều lớp?
Một ý tưởng đơn giản - One-vs-Tất cả
Phân loại
Chọn một kỹ thuật tốt để xây dựng phân loại nhị phân (ví dụ,
RLSC, SVM). Xây dựng
N phân loại nhị phân khác nhau. Đối với các
phân loại thứ i, để cho các ví dụ tích cực được tất cả các điểm trong
lớp
tôi, và để cho các ví dụ tiêu cực được tất cả các điểm không phải
trong lớp
tôi. Hãy
fi được
phân loại thứ i. Phân loại với
f
(
x) = arg max
i
fi
(
x
).
Một ý tưởng đơn giản - All-vs-Tất cả
Phân loại
Xây dựng
N
(
N
-1) phân loại, một phân loại để phân biệt mỗi
cặp của các lớp học
i và
j. Hãy
fij được phân loại nơi lớp
tôi là những ví dụ tích cực và lớp
j đều âm tính. Lưu ý
fji
=
-
fij
. Phân loại sử dụng
f
(
x) = arg max
i


X
j
fij
(
x
)

.
Cũng được gọi là tất cả các cặp hoặc một-vs-một phân loại.
Những thử thách
OVA và AVA là đơn giản như vậy mà nhiều người đã phát minh ra
chúng một cách độc lập. Thật khó để viết giấy tờ về họ.
Vì vậy, có một ngành công nghiệp toàn bộ tiểu trong, tinh tế ưa thích
phương pháp để phân loại nhiều lớp.
Để tốt nhất của kiến thức của tôi, lựa chọn điều chỉnh đúng cách
phân loại theo quy tắc (RLSC, SVM) như tiềm ẩn của bạn
phân loại nhị phân và sử dụng một-vs -all (OVA) hoặc tất cả-vs-tất cả
(AVA) hoạt động cũng như bất cứ điều gì khác mà bạn có thể làm.
Nếu bạn thực sự phải giải quyết một vấn đề nhiều lớp, tôi mạnh mẽ
kêu gọi các bạn chỉ cần sử dụng OVA hoặc AVA, và không phải lo lắng về
bất cứ điều gì khác. Sự lựa chọn giữa OVA và AVA là phần lớn
tính toán.
OVA vs AVA
xem ngây thơ, AVA có vẻ nhanh hơn và bộ nhớ effi-
cient. Nó đòi hỏi O (N2) phân loại thay vì O (N), nhưng
mỗi phân lớp là (trung bình) nhỏ hơn nhiều. Nếu thời gian để
xây dựng một bộ phân loại là siêu tuyến tính về số lượng các điểm dữ liệu,
AVA là một lựa chọn tốt hơn. Với SVMs, AVA của lẽ là tốt nhất.
Tuy nhiên, nếu bạn có thể giải quyết một vấn đề RLS trên toàn bộ của
bộ dữ liệu sử dụng một ma trận nhân tử, bạn sẽ có được nhiều lớp
phân loại cơ bản miễn phí (xem RLS bài giảng). Vì vậy
. Với RLS, OVA của một lựa chọn tuyệt vời
khác Phương pháp tiếp cận
Có hai phương pháp cơ bản để mở rộng quy tắc
ý tưởng để phân loại nhiều lớp:
• "Single Machine" phương pháp tiếp cận - cố gắng để giải quyết một đơn
vấn đề tối ưu hóa mà đào tạo nhiều phân loại nhị phân
cùng một lúc.
• "Correcting Lỗi Code "phương pháp tiếp cận - cố gắng kết hợp
phân loại nhị phân trong một cách mà cho phép bạn khai thác decorrelations
. và sửa lỗi
. Những phương pháp này đều không hoàn toàn độc quyền
Weston và Watkins, Vapnik
Việc đầu tiên" máy tính duy nhất "cách tiếp cận:
min
f1, ...,
fN∈ H, Giữ
∈
R
ℓ (N
-
1)
P
N
i = 1 ||
fi ||
2
K
+
C
P
ℓ
i = 1
P
j
6 =
yi
ξij
chịu:
FYI
(
xi) +
b
yi ≥
fj
(
xi ) +
b
j + 2
-
ξij
ξij
≥
0
ý tưởng chính. Giả sử điểm
i là trong lớp
y
i. Sau đó, cho
j
6 =
y
i, chúng ta muốn (lạm dụng ký hiệu của chúng tôi wrt
b),
FYI
(
xi
)
-
fj
(
xi
)
≥
2,
hoặc chúng tôi phải trả tiền phạt tuyến tính của
ξij
.
WW Phân tích tôi
ý tưởng này có vẻ trực quan hợp lý. Có nên?
Weston và Watkins thực hiện thí nghiệm. Mở 2 trong 5
bộ dữ liệu, họ thấy rằng phương pháp của họ thực hiện đáng kể
hơn OVA, và về cùng trên phần còn lại.
Tuy nhiên, họ cho rằng "để cho phép so sánh, đối với mỗi
thuật toán C = ∞ đã được lựa chọn (các dữ liệu đào tạo phải được
phân loại mà không có lỗi), "vì vậy họ đang thực hiện ERM,
không chính quy (C = ∞ ⇐⇒ λ = 0). Một nhân Gaussian
đã được sử dụng, với σ tương tự cho từng phương pháp (không nhất thiết phải
là một ý tưởng tốt), và không có thông tin về làm thế nào σ này đã được
lựa chọn.
Phân tích WW II
Trong hoàn cảnh nào chúng ta mong đợi phương pháp này để
làm tốt hơn một cách tiếp cận OVA? Khó khăn để nói. Chúng tôi cần
một tình huống mà nó sẽ được khó khăn để thực sự tách
dữ liệu, nhưng ở đâu có tồn tại các tập con có ý nghĩa của
dữ liệu mà ngay cả khi chúng ta không thể chỉ định một giá trị tích cực
đến lớp đúng, chúng ta có thể gán một giá trị ít tiêu cực
đến nó hơn các lớp khác. Hoặc, chúng ta cần tập con mà ngay cả
mặc dù we'r

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.