clustering để được thực hiện dựa trên các chủ đề và
nội dung. Danh sách email cung cấp khác như
ví dụ.
Khi đầu vào các đại lý sẽ nhận được email của
khách hàng của mình, cùng với một tập các ví dụ,
sự tương đồng và khác nhau, để
phát triển ý thức về những gì người dùng yêu cầu
trong phân nhóm của mình. Các đại lý có nhiệm vụ để
nhóm các email vào thư mục dựa trên
sự tương đồng giữa chúng trong các hình thức của
đối tượng phổ biến, chủ đề email phổ biến
, vv Mục tiêu của chúng tôi là thiết kế một học
chiến lược cho các đại lý để biết cách
cụm. Các vectơ đầu vào được đại diện
trong không gian đặc trưng với dữ liệu huấn luyện
bao gồm hai bộ:
i) S: (xi, xj) ∈ S nếu xi, xj tương tự
ii) D: (xi, xj) ∈ D nếu xi, xj được không tương tự
phương pháp học tập này sau đó được áp dụng cho các
dữ liệu huấn luyện để học một khoảng cách
số liệu. Quan niệm của chúng ta về một thước đo khoảng cách đã
được bắt nguồn từ [1].
Các khái niệm quan trọng trong bất kỳ phương pháp phân nhóm
là khái niệm về khoảng cách giữa hai
điểm trong không gian mẫu. Khoảng cách
số liệu được sử dụng để thiết lập các khái niệm về
sự tương tự giữa bất kỳ
hai điểm. Bằng trực giác, điểm tương tự là
gần với nhau hơn một cặp
điểm khác nhau. Tuy nhiên, vấn đề này vẫn
còn là để làm thế nào để chúng tôi chính thức học được một
số liệu từ xa. Ở đây, chúng ta có thể xác định
mục tiêu của chúng tôi mà chúng tôi kỳ vọng khoảng cách
số liệu để đạt được:
i) Tìm hiểu tầm quan trọng của cá nhân
các tính năng trong các vector đầu vào. Điều này
có thể dễ dàng được thực hiện bằng cách học một
trọng số tương đối / tầm quan trọng cho
mỗi tính năng.
Ii) Tìm hiểu mối tương quan giữa các tính năng
nếu có bất kỳ.
[1] thảo luận về các khái niệm về khoảng cách
Một số liệu như:
d (x, y) = dA (x, y) mà có thể được thể hiện như:
|| x - y || A = [(xy) T
A (xy)]
1/2
Ở đây A rõ ràng của hình thức ℜn x n là. Một số
thuộc tính mà A cần đáp ứng là không âm
và các bất đẳng thức tam giác mà
đòi hỏi Một là tích cực bán nhất định. nó
đang được dịch, vui lòng đợi..
