ii) Học một ma trận đầy đủ A:
Việc học tập của toàn bộ ma trận xảy ra trong
ba giai đoạn:
- Khai thác tối đa khoảng cách tích lũy
giữa các điểm khác nhau. Điều này được
thực hiện bằng cách sử dụng một đi lên gradient trên
các mục tiêu sau đây.
- Các tối ưu ở trên sau đó được dự kiến
sử dụng khái niệm lặp đi lặp lại
chiếu [6] vào thiết lập các ma trận
đáp ứng các ràng buộc sau vào
tập hợp các điểm tương tự. Điều này được thực hiện
bằng cách thông qua các ràng buộc sau
tối ưu hóa.
- Kết quả cuối cùng được chiếu lên
tập tất cả các ma trận psd bằng cách loại bỏ tất cả các
eigen giá trị âm để lấy được
kết quả.
Các bước trên được lặp lại để
hội tụ về tối ưu toàn cầu. Các
phương trình cho tối ưu hóa trên được
bắt nguồn trong Phụ lục B.
V. EMAIL ĐẶC SPACE:
Lựa chọn các thông tin và phân biệt
các tính năng là cốt lõi và quan trọng để thúc của chúng tôi
mục tiêu. Dưới đây là danh sách các tính năng mà
chúng tôi đã sử dụng trong không gian đặc trưng của chúng tôi. Những
tính năng không thể hiện hoàn hảo
kịch bản như được nhìn thấy trong các kết quả của chúng tôi và
khả năng khác có thể dẫn tốt hơn
biểu diễn. Vì chúng tôi không muốn các
tính năng để có bất kỳ thiên vị ban đầu dựa trên
một loạt các giá trị từng có, chúng tôi đã
thực hiện tất cả các tính năng (ngoại trừ
khoảng cách giữa tf * vectơ idf) trên thang điểm
từ 0 (hoàn toàn tương tự) đến 1.0 (hoàn toàn
khác nhau ).
i) Tiêu đề thư Vector:
dòng chủ đề thường truyền tải rất nhiều về
bối cảnh của e-mail. Ví dụ phổ biến
của cùng một chuỗi bao gồm các email phát sinh
từ một cuộc thảo luận trong một nhóm có tương tự như
dòng tiêu đề với 'Re:' / 'Fwd:' thêm thẻ vào
nó. Chúng tôi tạo ra một chỉ số của tất cả các đối tượng trong các
bộ sưu tập và tạo ra vectơ trong thời
gian cho mỗi dòng chủ đề. Các Euclide
khoảng cách giữa tf * vectơ idf của hai
dòng tiêu đề cho giá trị của khoảng cách
giữa hai vectơ trong chủ đề
kích thước.
Ii) Tiêu đề thư String:
Chúng tôi có một tính năng riêng biệt cho dài nhất
chuỗi phụ chung giữa hai đối tượng
dòng từ nó đã được quan sát thấy rằng các cao
chiều tf * idf vectơ đã không thể
làm nổi bật cú pháp của email danh sách. Các [CS-
229-qa] email được dễ dàng bỏ qua kể từ khi
các '[' đã bị loại khỏi
chỉ mục. Điểm số chuỗi phụ đáng kể
giúp trong việc nắm bắt các email danh sách và
giống nhau giữa chúng.
Iii) e-mail id của người gửi:
Đó là nhiều khả năng là bối cảnh của các
e-mail được gửi bởi một người cụ thể sẽ
được tương tự. Ngoại lệ là khi chúng ta
tổ chức nhiều mối quan hệ với một người.
Ví dụ, nếu thư ký của bạn cũng là bạn
gái. Tuy nhiên, chúng tôi không bao che cho
các ngoại lệ đó, và mong muốn đào tạo
quy trình để giảm nhẹ không thể kết luận như vậy
tính năng. Khoảng cách giữa hai
vectơ được đưa ra như là một hàm của độ dài
của dãy con chung dài nhất
giữa hai ID email.
Ví dụ,
LCS [{andrew_ng} - {ngandrew}] = {} andrew.
Iv) Tên miền của e- mail:
viết thông tin cũng có thể được ẩn trong
tên miền của e-mail của người gửi.
Ví dụ làm việc trong Enron chúng ta có thể
hợp lý mong đợi email từ 'enron.com'
là email chính thức. Một ví dụ khác,
các email từ các tên miền 'năm' có thể phục vụ cho một
mục đích khác nhau so với mail
đang được dịch, vui lòng đợi..