Có thể thấy rằng để đáp ứng các đầu
mục tiêu một ma trận đường chéo A sẽ đủ
vì nó sẽ gán trọng lượng khác nhau để
các trục khác nhau. Để học khác nhau
thư từ và tương quan trong
không gian đặc trưng chúng ta học ma trận A. đầy đủ
Ba phần tiếp theo thảo luận về ba
giai đoạn phát triển của công việc của chúng tôi:
. I) Thu thập và phân tích dữ liệu
ii) Các chiến lược học tập sử dụng cho việc học tập
các khoảng cách số liệu.
iii) Thiết kế một không gian đặc trưng cho các email
tài liệu.
III. THU THẬP DỮ LIỆU và phân tích:
Các dữ liệu sử dụng cho dự án này xuất phát từ
sáng kiến CALO (URL:
http://www.calo.sri.com) dưới hình thức hay
các bộ sưu tập của các email của người dân. Chúng tôi
chân thành cảm ơn Ben Taskar cho
giúp đỡ chúng tôi với sự tích lũy dữ liệu.
Điều này phục vụ chúng ta tốt trong hai bối cảnh, tạo cho
chúng tôi dữ liệu phong phú để tìm hiểu / thử nghiệm trên cũng như
ghi nhãn có thể vì chúng được tổ chức
trong các thư mục cho mỗi người. Các thư mục
tổ chức cho mỗi người đã được sử dụng
để kiểm tra tính chính xác của hệ thống của chúng tôi.
Mặc dù có số liệu đã là một
vấn đề không, sạch sẽ đã chắc chắn là một
rào cản lớn. Mặc dù tiêu đề email
truyền đạt rất nhiều cấu trúc và ngữ nghĩa để
email, ngay cả những tiêu đề MIME không có
tất cả các tính năng tiêu chuẩn và chỉ toàn hiện
tiêu đề (ví dụ như gửi đến :, cc :, bcc :) đã được
sử dụng để truyền đạt khả năng mở rộng đến
hệ thống. Tuy nhiên, nó không phải là các tiêu đề đó
đặt ra những thách thức. Lớn nhất
văn bản Email không có bất kỳ tiêu chuẩn
cấu trúc và thậm chí không giới hạn trong
ngữ pháp tiếng Anh. Văn bản có tính năng như
các dấu, biểu tượng cảm xúc, vv xảy ra
thường xuyên như những lời bình thường trong email. Để
tín dụng của chúng tôi, ở trên đã được chuyển đổi
từ một trở ngại trong tiêu chuẩn hóa để tài sản
trong việc phát hiện bối cảnh bằng cách lập chỉ mục chúng
cùng với các từ khác trong các thư.
Tuy nhiên, nhiều vấn đề khác không
tồn tại. Ví dụ, HTML trong email (các
bộ phận cơ thể html trong MIME đa phần
tin nhắn) đã tránh được và ASCII
phần được sử dụng để phân tích vì các thẻ
có xu hướng thống trị các thẻ thứ hạng đầu của
các thư.
Mặc dù chúng tôi đã xử lý hầu hết các vấn đề
của cản trở sự tiến bộ của chúng tôi trong việc đào tạo, chúng tôi
không thể khẳng định hoàn toàn thành công trong
mục tiêu. Tuy nhiên, chúng ta không thấy một
giải pháp ngoài việc có một kiến thức
cơ sở của mô hình (ví dụ như thẻ HTML), mà
do đó được loại trừ bởi các đại lý
từ phân tích cú pháp và tiến độ đào tạo.
IV. HỌC CHIẾN LƯỢC:
phương pháp học tập của chúng tôi chủ yếu
xuất phát từ công việc của Xing et al. [1].
Các đại diện của một thước đo khoảng cách được
mô tả trong phần II. Chúng tôi tìm hiểu những
khoảng cách số liệu trong 2 cách, được
phân tích và so sánh như là một phần của các
phân tích kết quả của công việc của chúng tôi. Đây là 2
chiến lược như:
i) Học một Một đường chéo:
Xing et al. [1] đã được xác định như sau
hàm mục tiêu để học hỏi
Một đường chéo = diag (A11, A22, ...., Ann).
Nơi,
S và D giữ lại các thông số kỹ thuật tương tự tức là
thiết lập các điểm giống nhau và khác nhau
tương ứng.
Điều này được thực hiện bằng cách thực hiện của Newton
tìm kiếm trên không gian tìm kiếm. Các Optima
được tìm thấy bằng cách giảm thiểu trên
hàm mục tiêu được đưa ra ràng buộc là
A vẫn tích cực bán nhất định. Trên đây
hạn chế được áp đặt bằng cách thực hiện một đường
tìm kiếm trước khi bước cập nhật trong
tối ưu hóa để có được kích thước bước (ở
ngoài tỷ lệ học) alpha mà
đảm bảo Một psd Các chức năng đăng nhập còn lại
trên các thiết lập khác nhau đảm bảo rằng
tổng kết không dưới không vì đây là
một hạn chế tối đa.
các Mục từ cho gradient và
phương trình Hessian sử dụng trong mã học tập của chúng tôi
đã được cung cấp như Phụ lục A
đang được dịch, vui lòng đợi..