Nhiều lớp Phân
9,520 Lớp 06, ngày 25 tháng hai năm 2008
Ryan Rifkin
"Đó là một câu chuyện
đã nói với bằng một thằng ngốc, đầy âm thanh và cuồng nộ,
biểu hiện gì."
Macbeth, Act V, cảnh V
nhiều lớp phân loại là gì?
Mỗi điểm đào tạo thuộc một trong
N lớp khác nhau.
mục đích là để xây dựng một chức năng mà, đưa ra một mới
điểm dữ liệu, một cách chính xác sẽ dự đoán lớp mà
điểm mới thuộc.
những gì không phải là nhiều lớp phân loại?
có rất nhiều kịch bản trong đó có nhiều loại
mà điểm thuộc, nhưng một điểm nhất định có thể thuộc
vào nhiều loại. Trong hình thức cơ bản nhất của nó, vấn đề này
phân hủy trivially vào một loạt các vấn đề nhị phân không liên kết,
trong đó có thể được giải quyết một cách tự nhiên bằng các kỹ thuật của chúng tôi cho nhị
phân.
Một ý tưởng đầu tiên
Giả sử chúng ta biết mật độ, pi (x), cho từng tồn tại
các lớp học . Sau đó, chúng ta sẽ dự đoán sử dụng
f (x) = arg i∈1 max, ..., N pi (x).
Tất nhiên, chúng tôi không biết mật độ, nhưng chúng ta có thể ước tính
họ sử dụng kỹ thuật cổ điển.
Vấn đề Với Mật độ và
Động lực
ước tính mật độ là khó khăn, đặc biệt là ở kích thước cao
s
với dữ liệu hạn chế.
Đối với nhiệm vụ phân loại nhị phân, chúng ta đã thấy rằng trực tiếp
ước lượng một hàm phân cách trơn tru cho kết quả tốt
hơn so với ước tính mật độ (SVM, RLSC). Chúng ta có thể mở rộng
các phương pháp hữu ích để các kịch bản nhiều lớp?
Một ý tưởng đơn giản - One-vs-Tất cả
Phân loại
Chọn một kỹ thuật tốt để xây dựng phân loại nhị phân (ví dụ,
RLSC, SVM). Xây dựng
N phân loại nhị phân khác nhau. Đối với các
phân loại thứ i, để cho các ví dụ tích cực được tất cả các điểm trong
lớp
tôi, và để cho các ví dụ tiêu cực được tất cả các điểm không phải
trong lớp
tôi. Hãy
fi được
phân loại thứ i. Phân loại với
f
(
x) = arg max
i
fi
(
x
).
Một ý tưởng đơn giản - All-vs-Tất cả
Phân loại
Xây dựng
N
(
N
-1) phân loại, một phân loại để phân biệt mỗi
cặp của các lớp học
i và
j. Hãy
fij được phân loại nơi lớp
tôi là những ví dụ tích cực và lớp
j đều âm tính. Lưu ý
fji
=
-
fij
. Phân loại sử dụng
f
(
x) = arg max
i
X
j
fij
(
x
)
.
Cũng được gọi là tất cả các cặp hoặc một-vs-một phân loại.
Những thử thách
OVA và AVA là đơn giản như vậy mà nhiều người đã phát minh ra
chúng một cách độc lập. Thật khó để viết giấy tờ về họ.
Vì vậy, có một ngành công nghiệp toàn bộ tiểu trong, tinh tế ưa thích
phương pháp để phân loại nhiều lớp.
Để tốt nhất của kiến thức của tôi, lựa chọn điều chỉnh đúng cách
phân loại theo quy tắc (RLSC, SVM) như tiềm ẩn của bạn
phân loại nhị phân và sử dụng một-vs -all (OVA) hoặc tất cả-vs-tất cả
(AVA) hoạt động cũng như bất cứ điều gì khác mà bạn có thể làm.
Nếu bạn thực sự phải giải quyết một vấn đề nhiều lớp, tôi mạnh mẽ
kêu gọi các bạn chỉ cần sử dụng OVA hoặc AVA, và không phải lo lắng về
bất cứ điều gì khác. Sự lựa chọn giữa OVA và AVA là phần lớn
tính toán.
OVA vs AVA
xem ngây thơ, AVA có vẻ nhanh hơn và bộ nhớ effi-
cient. Nó đòi hỏi O (N2) phân loại thay vì O (N), nhưng
mỗi phân lớp là (trung bình) nhỏ hơn nhiều. Nếu thời gian để
xây dựng một bộ phân loại là siêu tuyến tính về số lượng các điểm dữ liệu,
AVA là một lựa chọn tốt hơn. Với SVMs, AVA của lẽ là tốt nhất.
Tuy nhiên, nếu bạn có thể giải quyết một vấn đề RLS trên toàn bộ của
bộ dữ liệu sử dụng một ma trận nhân tử, bạn sẽ có được nhiều lớp
phân loại cơ bản miễn phí (xem RLS bài giảng). Vì vậy
. Với RLS, OVA của một lựa chọn tuyệt vời
khác Phương pháp tiếp cận
Có hai phương pháp cơ bản để mở rộng quy tắc
ý tưởng để phân loại nhiều lớp:
• "Single Machine" phương pháp tiếp cận - cố gắng để giải quyết một đơn
vấn đề tối ưu hóa mà đào tạo nhiều phân loại nhị phân
cùng một lúc.
• "Correcting Lỗi Code "phương pháp tiếp cận - cố gắng kết hợp
phân loại nhị phân trong một cách mà cho phép bạn khai thác decorrelations
. và sửa lỗi
. Những phương pháp này đều không hoàn toàn độc quyền
Weston và Watkins, Vapnik
Việc đầu tiên" máy tính duy nhất "cách tiếp cận:
min
f1, ...,
fN∈ H, Giữ
∈
R
ℓ (N
-
1)
P
N
i = 1 ||
fi ||
2
K
+
C
P
ℓ
i = 1
P
j
6 =
yi
ξij
chịu:
FYI
(
xi) +
b
yi ≥
fj
(
xi ) +
b
j + 2
-
ξij
ξij
≥
0
ý tưởng chính. Giả sử điểm
i là trong lớp
y
i. Sau đó, cho
j
6 =
y
i, chúng ta muốn (lạm dụng ký hiệu của chúng tôi wrt
b),
FYI
(
xi
)
-
fj
(
xi
)
≥
2,
hoặc chúng tôi phải trả tiền phạt tuyến tính của
ξij
.
WW Phân tích tôi
ý tưởng này có vẻ trực quan hợp lý. Có nên?
Weston và Watkins thực hiện thí nghiệm. Mở 2 trong 5
bộ dữ liệu, họ thấy rằng phương pháp của họ thực hiện đáng kể
hơn OVA, và về cùng trên phần còn lại.
Tuy nhiên, họ cho rằng "để cho phép so sánh, đối với mỗi
thuật toán C = ∞ đã được lựa chọn (các dữ liệu đào tạo phải được
phân loại mà không có lỗi), "vì vậy họ đang thực hiện ERM,
không chính quy (C = ∞ ⇐⇒ λ = 0). Một nhân Gaussian
đã được sử dụng, với σ tương tự cho từng phương pháp (không nhất thiết phải
là một ý tưởng tốt), và không có thông tin về làm thế nào σ này đã được
lựa chọn.
Phân tích WW II
Trong hoàn cảnh nào chúng ta mong đợi phương pháp này để
làm tốt hơn một cách tiếp cận OVA? Khó khăn để nói. Chúng tôi cần
một tình huống mà nó sẽ được khó khăn để thực sự tách
dữ liệu, nhưng ở đâu có tồn tại các tập con có ý nghĩa của
dữ liệu mà ngay cả khi chúng ta không thể chỉ định một giá trị tích cực
đến lớp đúng, chúng ta có thể gán một giá trị ít tiêu cực
đến nó hơn các lớp khác. Hoặc, chúng ta cần tập con mà ngay cả
mặc dù we'r
đang được dịch, vui lòng đợi..
