Các ứng dụng của tài liệu clusteringkỹ thuật để cụm e-mail là mộtứng dụng thú vị. Các kỹ thuật như k-có nghĩa là,EM vv có thể được sử dụng để đạt điều này.Tuy nhiên, việc lựa chọn một khoảng cách tốtsố liệu là vấn đề chủ chốt tham gia. Thường xuyênmọi người theo cách thủ công chỉnh khoảng cách lựa chọnsố liệu để đạt được mong muốn/tốtcụm, kết quả mà tất cả chắc chắn khôngcung cấp một giải pháp chung chung. Do đó nó sẽrất hữu ích để tự động tìm hiểu cácthước đo khoảng cách từ một số thiết lập đào tạotrước khi cụm. Tại [1] một kỹ thuật chohọc từ xa các số liệu đãđề xuất cho cụm. Nhiệm vụ đầu tiên của chúng tôi làáp dụng kỹ thuật này cho tài liệu(cụ thể là e-mail) cụm.Các vấn đề chính phủ trong công việc của chúng tôi làhai lần: quyết định về chiến lược học tậpđể được thông qua và thứ hai, để thiết kế mộttính năng các không gian cho các email. Cổ điểnemail liên quan đến các vấn đề như trong [2] cóTìm cách để phân loại họ dựa trên văn bản của họthông thường kết quả trong một không gian hoặc là lớn nhưCác bộ sưu tập từ vựng hoặc theo tỷ lệ đểchiều dài của tài liệu. Ngay cả hiện tạicơ chế kết cụm như k-có nghĩa là cósử dụng không gian hạn-tài liệu choemail để cụm. Chúng tôi tiếp cận cácvấn đề một cách là để tránh cácchiều vấn đề là tốt.I. GIỚI THIỆU:Hầu hết công việc trong xử lý văn bản một cách dễ dàng có thểrộng rãi được phân loại thành hai khu vực:clustering và phân loại.Các phương pháp phân loại văn bản có majorlysử dụng máy phân loại như ngây thơ Bayes và SVMs(ví dụ, [2]) để phân loại văn bản{thư rác/không-thư rác}, {nhóm tin / không nhóm tin}vv. Máy phân loại này cóchủ yếu là làm việc trong không gian hạn đại diện cho các tài liệu dựachủ yếu là ngày xảy ra/không xảy ra/tần sốCác điều khoản trong cáctài liệu để thiết lập các phân loại của họ.Không gian hạn được xác định bởi các điều khoản trong cácbộ sưu tập từ vựng phục vụ như là cácKích thước của không gian đầu vào khác nhauCác biện pháp như là lực lượng đặc nhiệm * idf (thuật ngữ tần số, nghịch đảogiá trị tần số tài liệu) điền vào cácmagnitudes. Các tài liệu này làcó sẵn trong [3]. Mặc dù như vậyGiám sát học tập phương pháp tối ưu hóa cácphân loại lỗi các số liệu đã họckhông nhất thiết phải chung đủ đểcắm vào thuật toán học khác như K-phương tiện.Hạn chế cụ thể này là một cách dễ dàngđánh dấu trong trường hợp chưa có cấu trúcdữ liệu
đang được dịch, vui lòng đợi..
