ii) Learning a full matrix A:The le

ii) Learning a full matrix A:
The learning of the full matrix happens in
three stages:
- Maximization of cumulative distance
between the dissimilar points. This is
achieved by using a gradient ascent on
the following objective.
- The above optimum is then projected
using the concept of iterative
projection [6] onto the set of matrices
satisfying the following constraint on
the set of similar points. This is done
by via the following constrained
optimization.
- The result is finally projected onto the
set of all p.s.d matrices by removing all
negative eigen values to derive the
result.
The above steps are repeated in order to
converge to the global optimum. The
equations for the above optimizations are
derived in Appendix B.
V. EMAIL FEATURE SPACE:
Selection of informative and distinguishing
features is core and crucial to our end
objectives. Below is a list of features that
we have used in our feature space. These
features do not represent the perfect
scenario as shall be seen in our results and
other possibilities could result in better
performances. Since we did not want the
features to have any initial bias based on
the range of values each takes, we have
implemented all the features (except
distances between tf*idf vectors) on a scale
of 0 (completely similar) to 1.0 (completely
dissimilar).
i) Subject Line Vector:
The subject line usually conveys a lot about
the context of e-mail. Common examples
of the same include chains of emails arising
from a discussion in a group having similar
subject lines with 'Re:'/'Fwd:' tags added to
it. We create an index of all subjects in the
collection and create vectors in the term
space for each subject line. The Euclidean
distance between the tf*idf vectors of two
subject lines gives the value of the distance
between the two vectors in the subject
dimension.
ii) Subject Line String:
We have a separate feature for the longest
common sub string between two subject
lines since it was observed that the high
dimensional tf*idf vectors were not able to
highlight the syntax of list emails. The [ cs-
229-qa ] emails were easily missed since
the ‘[‘ were getting excluded from the
index. The sub string score substantially
helped in capturing the list emails and the
similarity between them.
iii) Sender's e-mail id:
It is highly probable that the context of the
e-mails sent by a particular person would
be similar. Exception to this is when we
hold multiple relationships with a person.
For example, if your secretary is also your
girlfriend. However, we do not cover for
such exceptions and expect the training
process to downplay such inconclusive
features. The distance between any two
vectors is given as a function of the length
of the longest common sub sequence
between the two email IDs.
Example,
LCS[{andrew_ng} – {ngandrew}] = {andrew}.
iv) Domain of the e-mail:
Useful information could also be hidden in
the domain name of the sender's e-mail.
For example working in Enron we could
reasonably expect emails from ‘enron.com’
to be official emails. As another example,
emails from ‘.com’ domains might serve a
different purpose as compared to mails

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

II) học một ma trận đầy đủ đáp:Học tập của các ma trận đầy đủ xảy ra trongba giai đoạn:-Tối đa hóa khoảng cách tích lũygiữa các điểm khác nhau. Điều này làđạt được bằng cách sử dụng một gradient ascentmục tiêu sau đây.-Tối ưu trên sau đó được dự kiếnbằng cách sử dụng các khái niệm về lặp đi lặp lạichiếu [6] vào các thiết lập của ma trậnđáp ứng các hạn chế trêntập hợp các điểm tương tự. Điều này được thực hiệnbởi qua đây bị hạn chếtối ưu hóa.-Kết quả cuối cùng được chiếu lên cácthiết lập của tất cả p.s.d ma trận bằng cách loại bỏ tất cảphủ định giá trị eigen để lấy được cáckết quả.Để được lặp đi lặp lại các bước trênhội tụ về tối ưu toàn cầu. Cácphương trình cho tối ưu hóa trên làcó nguồn gốc ở phụ lục B.V. THƯ ĐIỆN TỬ TÍNH NĂNG SPACE:Lựa chọn các thông tin và phân biệttính năng là cốt lõi và rất quan trọng để kết thúc của chúng tôimục tiêu. Dưới đây là danh sách các tính năng đóchúng tôi đã sử dụng trong không gian tính năng của chúng tôi. Nhữngtính năng không thể hiện hoàn hảokịch bản sẽ được nhìn thấy trong các kết quả vàkhả năng khác có thể cho kết quả tốt hơnmàn trình diễn. Kể từ khi chúng tôi không muốn cáccó bất kỳ thiên vị ban đầu dựa trên các tính năngphạm vi giá trị mỗi mất, chúng ta cóthực hiện tất cả các tính năng (ngoại trừkhoảng cách giữa các lực lượng đặc nhiệm * idf vectơ) trên một quy mô0 (hoàn toàn tương tự) để 1.0 (hoàn toànkhông giống nhau).i) chủ đề dòng Vector:Dòng tiêu đề thường truyền tải rất nhiều vềbối cảnh của thư điện tử. Ví dụ phổ biếncùng bao gồm chuỗi email phát sinhtừ một cuộc thảo luận trong nhóm có một tương tựdòng tiêu đề với tôi: '/' Fwd:' tags thêm vàonó. Chúng tôi tạo ra một chỉ số của tất cả các môn học trong cácbộ sưu tập và tạo ra vectơ trong hạnkhông gian cho mỗi dòng chủ đề. Các Euclidkhoảng cách giữa lực lượng đặc nhiệm * idf vectơ 2dòng tiêu đề đưa ra giá trị của khoảng cáchgiữa hai vectơ trong chủ đềKích thước.II) chủ đề dòng chuỗi:Chúng tôi có một tính năng riêng biệt cho dài nhấtthông thường phụ chuỗi giữa hai chủ đềdòng kể từ khi nó được quan sát thấy rằng caolực lượng đặc nhiệm chiều * idf vectơ đã không thểlàm nổi bật cú pháp của danh sách email. The [cs-229-qa] email đã bị mất dễ dàng kể từCác ' [' đã nhận được loại trừ khỏi cácchỉ mục. Dây sub điểm đáng kểgiúp thu giữ các danh sách email và cácsự giống nhau giữa chúng.III) của người gửi e-mail id:Nó là rất có thể xảy ra rằng bối cảnh của cáce-mail được gửi bởi một người cụ thể nàođược tương tự. Ngoại lệ cho điều này là khi chúng tôigiữ nhiều mối quan hệ với một người.Ví dụ, nếu cũng là thư ký của bạn của bạnbạn gái. Tuy nhiên, chúng tôi không bao gồmtrường hợp ngoại lệ như vậy và hy vọng việc đào tạoquá trình để downplay như vậy bất phân thắng bạiCác tính năng. Khoảng cách giữa bất kỳ haivector được đưa ra như là một hàm của độ dàidãy con chung dài nhấtgiữa hai email ID.Ví dụ,LCS [{andrew_ng}-{ngandrew}] = {andrew}.IV) miền e-mail:Thông tin hữu ích cũng có thể được ẩn trongtên miền của người gửi e-mail.Ví dụ: làm việc tại Enron chúng ta có thểhợp lý mong đợi email từ 'enron.com'để là chính thức email. Một ví dụ khác,email từ các tên miền 'com' có thể phục vụ mộtcác mục đích khác nhau so với thư

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

ii) Học một ma trận đầy đủ A:
Việc học tập của toàn bộ ma trận xảy ra trong
ba giai đoạn:
- Khai thác tối đa khoảng cách tích lũy
giữa các điểm khác nhau. Điều này được
thực hiện bằng cách sử dụng một đi lên gradient trên
các mục tiêu sau đây.
- Các tối ưu ở trên sau đó được dự kiến
sử dụng khái niệm lặp đi lặp lại
chiếu [6] vào thiết lập các ma trận
đáp ứng các ràng buộc sau vào
tập hợp các điểm tương tự. Điều này được thực hiện
bằng cách thông qua các ràng buộc sau
tối ưu hóa.
- Kết quả cuối cùng được chiếu lên
tập tất cả các ma trận psd bằng cách loại bỏ tất cả các
eigen giá trị âm để lấy được
kết quả.
Các bước trên được lặp lại để
hội tụ về tối ưu toàn cầu. Các
phương trình cho tối ưu hóa trên được
bắt nguồn trong Phụ lục B.
V. EMAIL ĐẶC SPACE:
Lựa chọn các thông tin và phân biệt
các tính năng là cốt lõi và quan trọng để thúc của chúng tôi
mục tiêu. Dưới đây là danh sách các tính năng mà
chúng tôi đã sử dụng trong không gian đặc trưng của chúng tôi. Những
tính năng không thể hiện hoàn hảo
kịch bản như được nhìn thấy trong các kết quả của chúng tôi và
khả năng khác có thể dẫn tốt hơn
biểu diễn. Vì chúng tôi không muốn các
tính năng để có bất kỳ thiên vị ban đầu dựa trên
một loạt các giá trị từng có, chúng tôi đã
thực hiện tất cả các tính năng (ngoại trừ
khoảng cách giữa tf * vectơ idf) trên thang điểm
từ 0 (hoàn toàn tương tự) đến 1.0 (hoàn toàn
khác nhau ).
i) Tiêu đề thư Vector:
dòng chủ đề thường truyền tải rất nhiều về
bối cảnh của e-mail. Ví dụ phổ biến
của cùng một chuỗi bao gồm các email phát sinh
từ một cuộc thảo luận trong một nhóm có tương tự như
dòng tiêu đề với 'Re:' / 'Fwd:' thêm thẻ vào
nó. Chúng tôi tạo ra một chỉ số của tất cả các đối tượng trong các
bộ sưu tập và tạo ra vectơ trong thời
gian cho mỗi dòng chủ đề. Các Euclide
khoảng cách giữa tf * vectơ idf của hai
dòng tiêu đề cho giá trị của khoảng cách
giữa hai vectơ trong chủ đề
kích thước.
Ii) Tiêu đề thư String:
Chúng tôi có một tính năng riêng biệt cho dài nhất
chuỗi phụ chung giữa hai đối tượng
dòng từ nó đã được quan sát thấy rằng các cao
chiều tf * idf vectơ đã không thể
làm nổi bật cú pháp của email danh sách. Các [CS-
229-qa] email được dễ dàng bỏ qua kể từ khi
các '[' đã bị loại khỏi
chỉ mục. Điểm số chuỗi phụ đáng kể
giúp trong việc nắm bắt các email danh sách và
giống nhau giữa chúng.
Iii) e-mail id của người gửi:
Đó là nhiều khả năng là bối cảnh của các
e-mail được gửi bởi một người cụ thể sẽ
được tương tự. Ngoại lệ là khi chúng ta
tổ chức nhiều mối quan hệ với một người.
Ví dụ, nếu thư ký của bạn cũng là bạn
gái. Tuy nhiên, chúng tôi không bao che cho
các ngoại lệ đó, và mong muốn đào tạo
quy trình để giảm nhẹ không thể kết luận như vậy
tính năng. Khoảng cách giữa hai
vectơ được đưa ra như là một hàm của độ dài
của dãy con chung dài nhất
giữa hai ID email.
Ví dụ,
LCS [{andrew_ng} - {ngandrew}] = {} andrew.
Iv) Tên miền của e- mail:
viết thông tin cũng có thể được ẩn trong
tên miền của e-mail của người gửi.
Ví dụ làm việc trong Enron chúng ta có thể
hợp lý mong đợi email từ 'enron.com'
là email chính thức. Một ví dụ khác,
các email từ các tên miền 'năm' có thể phục vụ cho một
mục đích khác nhau so với mail

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.