The Mahalanobis and the Bhattachary

The Mahalanobis and the Bhattacharyya distances can only increase when adding more features, since for every added feature a non-negative distance contribution is also added. This would certainly be the case if we had the true values of the means and the covariances available, which, in practical applications, we do not.
When using a large number of features we get numeric difficulties in obtaining a good estimate of Σ-1, given the finiteness of the training set. Surprising results can then be expected; for instance, the performance of the classifier can degrade when more features are added, instead of improving.
Figure 6.14 shows the classification matrix for the two-class, cork-stopper problem, using the whole ten-feature set and equal prevalences. The training set performance did not increase significantly compared with the two-feature solution presented previously, and is worse than the solution using the four-feature vector [ART PRM NG RAAR]’, as shown in Figure 6.14b.
There are, however, further compelling reasons for not using a large number of features. In fact, when using estimates of means and covariance derived from a training set, we are designing a biased classifier, fitted to the training set. Therefore, we should expect that our training set error estimates are, on average, optimistic. On the other hand, error estimates obtained in independent test sets are expected to be, on average, pessimistic. It is only when the number of cases, n, is sufficiently larger than the number of features, d, that we can expect that our classifier will generalise, that is it will perform equally well when presented with new cases. The n/d ratio is called the dimensionality ratio.
The choice of an adequate dimensionality ratio has been studied by several authors (see References). Here, we present some important results as an aid for the designer to choose sensible values for the n/d ratio. Later, when we discuss the topic of classifier evaluation, we will come back to this issue from anotherperspective..

The Mahalanobis and the Bhattacharyya distances can only increase when adding more features, since for every added feature a non-negative distance contribution is also added. This would certainly be the case if we had the true values of the means and the covariances available, which, in practical applications, we do not. 
When using a large number of features we get numeric difficulties in obtaining a good estimate of Σ-1, given the finiteness of the training set. Surprising results can then be expected; for instance, the performance of the classifier can degrade when more features are added, instead of improving. 
Figure 6.14 shows the classification matrix for the two-class, cork-stopper problem, using the whole ten-feature set and equal prevalences. The training set performance did not increase significantly compared with the two-feature solution presented previously, and is worse than the solution using the four-feature vector [ART PRM NG RAAR]’, as shown in Figure 6.14b.
 There are, however, further compelling reasons for not using a large number of features. In fact, when using estimates of means and covariance derived from a training set, we are designing a biased classifier, fitted to the training set. Therefore, we should expect that our training set error estimates are, on average, optimistic. On the other hand, error estimates obtained in independent test sets are expected to be, on average, pessimistic. It is only when the number of cases, n, is sufficiently larger than the number of features, d, that we can expect that our classifier will generalise, that is it will perform equally well when presented with new cases. The n/d ratio is called the dimensionality ratio. 
The choice of an adequate dimensionality ratio has been studied by several authors (see References). Here, we present some important results as an aid for the designer to choose sensible values for the n/d ratio. Later, when we discuss the topic of classifier evaluation, we will come back to this issue from anotherperspective..

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Các Mahalanobis và khoảng cách của Bhattacharyya có thể chỉ tăng khi thêm nhiều tính năng, kể từ khi cho mỗi tính năng bổ sung đóng góp khoảng cách không âm cũng được thêm vào. Điều này chắc chắn sẽ là trường hợp nếu chúng ta có các giá trị thật sự của các phương tiện và covariances có sẵn, trong đó, trong ứng dụng thực tế, chúng tôi không. Khi sử dụng một số lượng lớn các tính năng chúng tôi nhận được số khó khăn trong việc có được một ước tính tốt của Σ-1, trao finiteness tập huấn luyện. Đáng ngạc nhiên kết quả sau đó có thể được dự kiến; Ví dụ, có thể làm giảm hiệu suất của loại khi thêm các tính năng được thêm vào, thay vì cải thiện. Con số 6,14 cho thấy ma trận phân loại cho hai hạng, cork-stopper vấn đề này, sử dụng toàn bộ mười tính năng thiết lập và bình đẳng prevalences. Đào tạo thiết lập hiệu suất không tăng đáng kể so với giải pháp hai tính năng được trình bày trước đây, và là tồi tệ hơn so với các giải pháp bằng cách sử dụng tính năng bốn vector [ART PRM NG RAAR]', như minh hoạ trong hình 6.14b. Đó là, Tuy nhiên, lý do không sử dụng một số lượng lớn các tính năng hấp dẫn hơn nữa. Trong thực tế, khi sử dụng các ước tính của phương tiện và hiệp phương sai nguồn gốc từ một bộ đào tạo, chúng tôi đang thiết kế một loại thiên vị, được trang bị các thiết lập đào tạo. Vì vậy, chúng ta nên mong đợi rằng chúng tôi ước tính lỗi thiết lập đào tạo được, Trung bình, lạc quan. Mặt khác, lỗi ước tính thu được trong thử nghiệm độc lập được dự kiến, tính trung bình, bi quan. Đó là chỉ khi số lượng các trường hợp này, n, là đủ lớn hơn trong số các tính năng, d, mà chúng tôi có thể mong đợi rằng loại của chúng tôi sẽ khái, nó sẽ thực hiện bình đẳng tốt khi trình bày với các trường hợp mới. Tỷ lệ n/d được gọi là tỉ lệ chiều. Sự lựa chọn của một tỉ lệ chiều đầy đủ đã được nghiên cứu của nhiều tác giả (xem chú thích). Ở đây, chúng tôi trình bày một số kết quả quan trọng như là một trợ giúp cho các nhà thiết kế để lựa chọn các giá trị hợp lý cho tỷ lệ n/d. Sau đó, khi chúng tôi thảo luận về các chủ đề của loại đánh giá, chúng tôi sẽ trở lại với vấn đề này từ anotherperspective...

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Các Mahalanobis và khoảng cách Bhattacharyya chỉ có thể tăng khi thêm nhiều tính năng hơn, vì đối với mỗi tính năng được thêm vào một khoảng cách đóng góp không âm cũng được thêm vào. Điều này chắc chắn sẽ là trường hợp nếu chúng ta có những giá trị thực sự của những phương tiện và phương sai có sẵn, trong đó, trong các ứng dụng thực tế, chúng tôi không.
Khi sử dụng một số lượng lớn các tính năng chúng tôi có được những khó khăn số trong việc có được một ước lượng tốt của Σ-1 , do tính hữu hạn của tập huấn luyện. Kết quả đáng ngạc nhiên sau đó có thể được dự kiến; Ví dụ, hiệu suất của các phân loại có thể làm suy giảm khi tính năng hơn được thêm vào, thay vì cải thiện.
Hình 6.14 cho thấy các ma trận phân loại cho hai lớp, vấn đề nút chai stopper, sử dụng toàn bộ mười tính năng và tỷ lệ nhiễm bằng nhau. Việc thực hiện tập huấn luyện tăng không đáng kể so với các giải pháp hai tính năng được trình bày trước đây, và còn tồi tệ hơn so với giải pháp sử dụng các vector bốn tính năng [ART PRM NG RAAR] ', như thể hiện trong hình 6.14b.
Tuy nhiên, lý do thuyết phục hơn nữa để không sử dụng một số lượng lớn các tính năng. Trong thực tế, khi sử dụng ước tính của phương tiện và phương sai bắt nguồn từ một tập huấn luyện, chúng tôi đang thiết kế một bộ phân loại thành kiến, được trang bị cho các tập huấn luyện. Do đó, chúng ta nên hy vọng rằng dự tập huấn luyện lỗi của chúng tôi, trung bình, lạc quan. Mặt khác, ước tính lỗi thu được trong các bộ kiểm tra độc lập được dự kiến sẽ là trung bình, bi quan. Nó chỉ là khi số lượng các trường hợp, n, là đủ lớn hơn so với số lượng các tính năng, d, chúng ta có thể hy vọng rằng phân loại của chúng tôi sẽ khái quát, đó là nó sẽ hoạt động tốt khi trình bày với các trường hợp mới. Các n / d Tỷ lệ này được gọi là tỷ lệ chiều.
Sự lựa chọn của một tỷ lệ chiều đầy đủ đã được nghiên cứu bởi nhiều tác giả (xem tài liệu tham khảo). Ở đây, chúng tôi trình bày một số kết quả quan trọng như một trợ giúp cho các nhà thiết kế lựa chọn giá trị hợp lý cho n / d tỷ lệ. Sau đó, khi chúng ta thảo luận về các chủ đề về đánh giá phân loại, chúng ta sẽ quay trở lại vấn đề này từ anotherperspective ..

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.