v2 được sử dụng trong nhiều ứng dụng; một trong số đó là các ngữ cảnh
quảng cáo được trình bày bởi Fan và Chang [27]. Họ
phát hiện ra lợi ích cá nhân ngay lập tức các blogger 'để
cải thiện quảng cáo theo ngữ cảnh trực tuyến. Họ đã làm việc trên thực tế
các quảng cáo và các trang blog thực tế từ ebay.com, wikipedia.com
và epinions.com. Họ đã sử dụng SVM (minh họa với các chi tiết trong
các phần tiếp theo) để phân loại và v2 cho FS. Kết quả của họ
cho thấy rằng phương pháp của họ có hiệu quả có thể xác định những quảng cáo
được tích cực tương quan với cá nhân của một blogger
lợi.
Hagenau và Liebmann [5] sử dụng các tính năng phản hồi bằng cách
sử dụng thông tin phản hồi của thị trường như là một phần của tính năng lựa chọn của họ
liên quan đến quá trình dữ liệu thị trường chứng khoán. Sau đó, họ sử dụng chúng
với v2 và Bi-Normal Separation (BNS). Họ cho thấy
một lựa chọn tính năng mạnh mẽ cho phép nâng độ chính xác phân loại
một cách đáng kể khi kết hợp với các loại tính năng phức tạp. Họ
tiếp cận cho phép lựa chọn các tính năng ngữ nghĩa có liên quan và
làm giảm các vấn đề của quá phù hợp khi áp dụng một máy
phương pháp học tập. Họ đã sử dụng SVM như một bộ phân loại. Kết quả của họ
cho thấy rằng sự kết hợp của tính năng khai thác tiên tiến
phương pháp và lựa chọn tính năng phản hồi của họ dựa trên tăng
độ chính xác phân loại và cho phép cải thiện phân tích tâm lý.
Điều này là bởi vì cách tiếp cận của họ cho phép giảm số lượng
các tính năng ít hơn giải thích, ví dụ như tiếng ồn, và giới hạn tiêu cực
ảnh hưởng của over-fitting khi xin học máy
phương pháp tiếp cận để phân loại các tin nhắn văn bản.
3.1.3. Semantic Indexing (LSI) Latent
phương pháp lựa chọn Feature cố gắng giảm số chiều
của dữ liệu bằng cách chọn từ phần thiết lập ban đầu của các thuộc tính.
Tính năng chuyển đổi phương pháp tạo ra một tập hợp nhỏ các tính năng
như một chức năng của các thiết lập ban đầu của các tính năng. LSI là
một trong những phương pháp chuyển đổi tính năng nổi tiếng [66]. LSI
phương pháp biến đổi không gian văn bản cho một hệ thống trục mới mà
là một sự kết hợp tuyến tính của các tính năng từ bản gốc. Hiệu trưởng
các kỹ thuật phân tích thành phần (PCA) được sử dụng để
đạt được mục tiêu này [67]. Nó quyết định trục hệ thống mà
vẫn giữ được mức độ lớn nhất của thông tin về các biến thể
trong các giá trị thuộc tính cơ bản. Nhược điểm chính của
LSI là nó là một kỹ thuật không có giám sát nước mù quáng,
đẳng cấp phân phối cơ bản. Vì vậy, các tính năng
được tìm thấy bởi LSI là không nhất thiết phải là hướng dọc mà
đẳng cấp phân phối các tài liệu cơ bản có thể được tốt nhất
tách ra [62].
Có phương pháp thống kê khác mà có thể được sử dụng
trong FS như Hidden Markov Model (HMM) và tiềm ẩn
Phân bổ Dirichlet (LDA). Chúng được sử dụng bởi Duric và
Sông [33] để tách các thực thể trong một tài liệu xem xét từ
những biểu hiện chủ quan mà mô tả những thực thể trong các điều khoản
của phân cực. Đây là lựa chọn tính năng mới được đề nghị của
đề án. LDA là các mô hình sinh sản cho phép các tài liệu
được giải thích là do không quan sát được (tiềm ẩn) các chủ đề. HMM-LDA
là một mô hình chủ đề mà đồng thời mô hình chủ đề và cú pháp
cấu trúc trong một bộ sưu tập các tài liệu [68]. Các tính năng
chương trình lựa chọn của Duric và Song [33] đề xuất đạt
kết quả cạnh tranh cho các tài liệu phân cực đặc biệt
khi chỉ sử dụng các lớp học ngữ pháp và làm giảm
sự chồng chéo với những từ ngữ nghĩa trong tính năng cuối cùng của
bộ. Họ đã làm việc trên đánh giá bộ phim và được sử dụng tối đa
Entropy (ME) phân loại (minh họa với các chi tiết trong kế
phần).
3.2. Nhiệm vụ đầy thử thách trong FS
Một nhiệm vụ rất khó khăn trong các tính năng giải nén là phát hiện sự mỉa mai.
Mục đích của việc này là để xác định các ý kiến mỉa mai. Điều này
làm việc đã được đề xuất bởi Reyes và Rosso [48]. Họ nhằm
xác định một mô hình tính năng để đại diện cho một phần của chủ
kiến thức làm nền tảng cho các ý kiến đó và cố gắng để
mô tả đặc điểm nổi bật của sự mỉa mai. Họ đã thành lập
một mô hình đại diện cho lời nói mỉa mai về sáu loại
tính năng: n-gram, POS-gram, funny profiling, tích cực / tiêu cực
. profiling, profiling tình cảm, và sự thú vị profiling
Họ xây dựng một dữ liệu có sẵn miễn phí thiết lập với ý mỉa mai từ
các bài báo, bài báo châm biếm và đánh giá của khách, thu thập
từ amazon.com. Họ đã được đăng tải trên cơ sở của một trực tuyến
hiệu ứng lan truyền, nội dung tức là kích hoạt một phản ứng dây chuyền trong người.
Họ sử dụng NB, SVM, và DT cho mục đích phân loại (minh họa
với các chi tiết trong phần tiếp theo). Kết quả của họ với
ba phân loại là đạt yêu cầu, cả về tính chính xác, như
cũng như độ chính xác, thu hồi, và F-measure.
đang được dịch, vui lòng đợi..
