A skin color likelihood model, p(co

A skin color likelihood model, p(color|f ace), can be derived from skin color samples. This may be done in the hue-saturation-value (HSV) color space or in the normalized red-green-blue (RGB) color space (see [24, 54] and Chapter 6 for comparative studies). A Gaussian mixture model for p(color|f ace) can lead to better skin color modeling [49, 50]. Figure 2.2 shows skin color segmentation maps. A skin-colored pixel is found if the likelihood p(H|f ace) is greater than a threshold (0.3), and S and V values are between some upper and lower bounds. A skin color map consists of a number of skin color regions that indicate potential candidate face regions. Reﬁned face regions can be obtained by merging the candidate regions based on the color and spatial information. Heuristic postprocessing could be performed to remove false detection. For example, a human face contains eyes where the eyes correspond to darker regions inside the face region. A sophisticated color based face detection algorithm is presented in Hsu et al. [13].
Although a color-based face detection system may be computationally attractive, the color constraint alone is insufﬁcient for achieving high accuracy face detection. This is due to large facial color variation as a result of different lighting, shadow, and ethic groups. Indeed, it is the appearance, albeit colored or gray level, rather than the color that is most essential for face detection. Skin color is often combined with the motion cue to improve the reliability for face detection and tracking on video [49, 50]. However, the most successful face detection systems do not rely on color or motion information, yet achieve good performance.
2.2 Image Normalization
Appearance-based methods operate on subwindows of a ﬁxed size. Therefore, explicit or implicit resizing (e.g., to 20×20 pixels) is necessary. Normalization of pixel intensity helps correct variations in imaging parameters in cameras as well as changes in illumination conditions. The meaning of resizing is apparent; intensity normalization operations, including mean value normalization, histogram equalization, and illumination correction, are described below. A simple intensity normalization operation is linear stretching. A histogram equalization helps reduce extreme illumination (Figure 2.3). In another simple illumination correction operation, the subwindow I(x, y) is ﬁtted to the best ﬁtting plane I (x, y) = a × x + b × y + c, where the values of the coefﬁcients a, b and c may be estimated using the least-squares method; and then extreme illumination is reduced in the difference image I (x, y) = I(x, y) − I’ (x, y) (Figure 2.4) [32, 41]. After normalization, the distribution of subwindow images becomes more compact and standardized, which helps reduce the complexity of the subsequent face/nonface classiﬁcation. Note that these operations are “global” in the sense that all the pixels may be affected after such an operation. Intensity normalization may also be applied to local subregions, as is in the case for local Haar wavelet features [46] (See later in AdaBoost based methods).

Fig. 2.3. Effect of linear stretching and and histogram equalization. (a) Original subwindow. (b) Linearly stretched. (c) Histogram equalized.
2.3 Gaussian Mixture Modeling
The distributions of face and nonface subwindows in a high dimensional space are complex. It is believed that a single Gaussian distribution cannot explain all variations. Sung and Poggio [41] propose to deal with this complexity by partitioning the face training data into several (six) face clusters, and nonface training data into several (six) nonface clusters, where the cluster numbers are chosen empirically. The clustering is performed by using a modiﬁed k-means algorithm based on the Mahalanobis distance [41] in the image space or some another space. Figure 2.5 shows the centroids of the resulting face and nonface clusters. Each cluster can be further modeled by its principal components using the PCA technique. Based on the multiGaussian and PCA modeling, a parametric classiﬁer can be formulated based on the distances of the projection points within the subspaces and from the subspaces [41]. The clustering can also be done using factor analysis and self-organizing map (SOM) [51].

Fig. 2.5. Centroid images of six face clusters (a) and six nonface clusters (b).
It is believed that a few (e.g., six) Gaussian distributions are not enough to model the face distribution and even less sufﬁcient to model the nonface distribution. However, it is reported in [23] that good results are achieved using a single Gaussian distribution for face and one for nonface, with a nonlinear kernel support vector machine classiﬁer; and more interestingly, the BDF face/nonface classiﬁer therein is trained using relatively small data sets: 600 FERET face images and 9 natural (nonface) images, and it generalizes very well to test images. The BDF work is worth more studies.
3 Neural Networks and Kernel Based Methods
Nonlinear classiﬁcation for face detection may be performed using neural networks or kernelbased methods. With the neural methods [32, 41], a classiﬁer may be trained directly using preprocessed and normalized face and nonface training subwindows. Rowley et al. [32] use the preprocessed 20×20 subwindow as an input to a neural network. The network has retinal connections to its input layer and two levels of mapping. The ﬁrst level maps blocks of pixels to the hidden units. There are 4 blocks of 10×10 pixels, 16 blocks of 5×5 pixels, and 6 overlapping horizontal stripes of 20×5 pixels. Each block is input to a fully connected neural network and mapped to the hidden units. The 26 hidden units are then mapped to the ﬁnal single-valued output unit and a ﬁnal decision is made to classify the 20×20 subwindow into face or nonface. Several copies of the same networks can be trained and their outputs combined by arbitration (ANDing) [32].
The input to the system of Sung and Poggio [41] is derived from the six face and six nonface clusters. More speciﬁcally, it is a vector of 2 × 6 = 12 distances in the PCA subspaces and 2 × 6 = 12 distances from the PCA subspaces. The 24 dimensional feature vector provides a good representation for classifying face and nonface patterns. In both systems, the neural networks are trained by back-propagation algorithms.
Nonlinear classiﬁcation for face detection can also be done using kernel SVMs [21, 26, 27], trained using face and nonface examples. Although such methods are able to learn nonlinear boundaries, a large number of support vectors may be needed to capture a highly nonlinear boundary. For this reason, fast realtime performance has so far been a difﬁculty with SVM classiﬁers thus trained. Although these SVM-based systems have been trained using the face and nonface subwindows directly, there is no reason why they cannot be trained using some salient features derived from the subwindows.
Yang et al. [53] use the SNoW learning architecture for face detection. SNoW is a sparse network of linear functions in which Winnow update rule is applied to the learning. The SNoW algorithm is designed for learning with a large set of candidate features. It uses classiﬁcation error to perform multicative update of the weights connecting the target nodes.

Fig. 2.3. Effect of linear stretching and and histogram equalization. (a) Original subwindow. (b) Linearly stretched. (c) Histogram equalized.
2.3 Gaussian Mixture Modeling
The distributions of face and nonface subwindows in a high dimensional space are complex. It is believed that a single Gaussian distribution cannot explain all variations. Sung and Poggio [41] propose to deal with this complexity by partitioning the face training data into several (six) face clusters, and nonface training data into several (six) nonface clusters, where the cluster numbers are chosen empirically. The clustering is performed by using a modiﬁed k-means algorithm based on the Mahalanobis distance [41] in the image space or some another space. Figure 2.5 shows the centroids of the resulting face and nonface clusters. Each cluster can be further modeled by its principal components using the PCA technique. Based on the multiGaussian and PCA modeling, a parametric classiﬁer can be formulated based on the distances of the projection points within the subspaces and from the subspaces [41]. The clustering can also be done using factor analysis and self-organizing map (SOM) [51].

Fig. 2.5. Centroid images of six face clusters (a) and six nonface clusters (b).
It is believed that a few (e.g., six) Gaussian distributions are not enough to model the face distribution and even less sufﬁcient to model the nonface distribution. However, it is reported in [23] that good results are achieved using a single Gaussian distribution for face and one for nonface, with a nonlinear kernel support vector machine classiﬁer; and more interestingly, the BDF face/nonface classiﬁer therein is trained using relatively small data sets: 600 FERET face images and 9 natural (nonface) images, and it generalizes very well to test images. The BDF work is worth more studies.
3 Neural Networks and Kernel Based Methods
Nonlinear classiﬁcation for face detection may be performed using neural networks or kernelbased methods. With the neural methods [32, 41], a classiﬁer may be trained directly using preprocessed and normalized face and nonface training subwindows. Rowley et al. [32] use the preprocessed 20×20 subwindow as an input to a neural network. The network has retinal connections to its input layer and two levels of mapping. The ﬁrst level maps blocks of pixels to the hidden units. There are 4 blocks of 10×10 pixels, 16 blocks of 5×5 pixels, and 6 overlapping horizontal stripes of 20×5 pixels. Each block is input to a fully connected neural network and mapped to the hidden units. The 26 hidden units are then mapped to the ﬁnal single-valued output unit and a ﬁnal decision is made to classify the 20×20 subwindow into face or nonface. Several copies of the same networks can be trained and their outputs combined by arbitration (ANDing) [32].
The input to the system of Sung and Poggio [41] is derived from the six face and six nonface clusters. More speciﬁcally, it is a vector of 2 × 6 = 12 distances in the PCA subspaces and 2 × 6 = 12 distances from the PCA subspaces. The 24 dimensional feature vector provides a good representation for classifying face and nonface patterns. In both systems, the neural networks are trained by back-propagation algorithms.
Nonlinear classiﬁcation for face detection can also be done using kernel SVMs [21, 26, 27], trained using face and nonface examples. Although such methods are able to learn nonlinear boundaries, a large number of support vectors may be needed to capture a highly nonlinear boundary. For this reason, fast realtime performance has so far been a difﬁculty with SVM classiﬁers thus trained. Although these SVM-based systems have been trained using the face and nonface subwindows directly, there is no reason why they cannot be trained using some salient features derived from the subwindows.
Yang et al. [53] use the SNoW learning architecture for face detection. SNoW is a sparse network of linear functions in which Winnow update rule is applied to the learning. The SNoW algorithm is designed for learning with a large set of candidate features. It uses classiﬁcation error to perform multicative update of the weights connecting the target nodes.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Một mô hình da khả năng màu, p (color|f ace), có thể được bắt nguồn từ da màu mẫu. Điều này có thể được thực hiện trong không gian màu (HSV) giá trị Huế-bão hòa hoặc trong bình thường màu đỏ màu xanh lá cây, xanh (RGB) không gian màu (xem [24, 54] và chương 6 so sánh nghiên cứu). Một mô hình hỗn hợp Gaussian cho p (color|f ace) có thể dẫn đến tốt hơn làm người mẫu màu da [49, 50]. Con số cho thấy 2.2 da màu phân khúc bản đồ. Một điểm ảnh màu da được tìm thấy nếu khả năng p (H|f ace) là lớn hơn một ngưỡng (0,3), và các giá trị S và V là giữa một số trên và giới hạn thấp hơn. Bản đồ màu da bao gồm một số khu vực màu da cho thấy khu vực mặt ứng cử viên tiềm năng. Reﬁned mặt khu vực có thể được thu được bằng việc sáp nhập các vùng ứng cử viên dựa trên màu sắc và các thông tin không gian. Heuristic postprocessing có thể được thực hiện để loại bỏ các phát hiện sai. Ví dụ, một khuôn mặt của con người có mắt nơi mắt tương ứng với các khu vực tối hơn bên trong vùng mặt. Một khuôn mặt màu tinh vi dựa trên phát hiện thuật toán được trình bày trong Hsu et al. [13].Mặc dù một hệ thống phát hiện màu dựa trên khuôn mặt có thể computationally hấp dẫn, màu sắc hạn chế một mình là insufﬁcient để đạt được độ chính xác cao phát hiện khuôn mặt. Điều này là do sự thay đổi lớn trên khuôn mặt màu là kết quả của ánh sáng khác nhau, bóng, và các nhóm đạo Đức. Thật vậy, nó là sự xuất hiện, mặc dù mức độ màu hoặc màu xám, chứ không phải là màu sắc mà là quan trọng nhất để đối mặt với phát hiện. Màu da thường được kết hợp với chuyển động cue để cải thiện độ tin cậy cho phát hiện khuôn mặt và theo dõi trên video [49, 50]. Tuy nhiên, Hệ thống thành công nhất phát hiện khuôn mặt không dựa vào màu sắc hoặc chuyển động thông tin, được đạt được hiệu suất tốt.2.2 bình thường hóa hình ảnhXuất hiện dựa trên phương pháp hoạt động trên subwindows của một kích thước ﬁxed. Vì vậy, rõ ràng hoặc ngầm thay đổi kích thước (ví dụ như, đến 20 × 20 điểm ảnh) là cần thiết. Bình thường hóa của cường độ pixel giúp các biến thể chính xác trong các thông số hình ảnh trong máy ảnh cũng như những thay đổi trong điều kiện chiếu sáng. Ý nghĩa của thay đổi kích thước là rõ ràng; cường độ hoạt động bình thường, trong đó có nghĩa là giá trị bình thường hóa, biểu đồ sự ngang nhau, và chiếu sáng chỉnh, được mô tả dưới đây. Một hoạt động bình thường hóa đơn giản cường độ là kéo dài tuyến tính. Một sự ngang nhau biểu đồ giúp giảm cực chiếu sáng (con số 2,3). Một đơn giản chiếu sáng chỉnh hoạt động, subwindow I (x, y) là ﬁtted để tốt nhất ﬁtting máy bay tôi (x, y) = một × x + b × y + c, nơi các giá trị của coefﬁcients a, b và c có thể được ước tính bằng cách sử dụng phương pháp tối thiểu; và sau đó cực ánh sáng là giảm trong hình ảnh khác biệt tôi (x, y) = I (x, y) − tôi ' (x, y) (hình 2.4) [32, 41]. Sau khi bình thường hóa, phân phối subwindow hình ảnh trở nên nhỏ gọn và tiêu chuẩn hóa, giúp làm giảm sự phức tạp của classiﬁcation tiếp theo mặt/nonface. Lưu ý rằng các hoạt động này là "toàn cầu" trong ý nghĩa rằng tất cả các điểm ảnh có thể bị ảnh hưởng sau khi một chiến dịch. Cường độ bình thường có thể cũng được áp dụng cho tiểu vùng địa phương, như là trong trường hợp cho các địa phương Haar bề mặt tính năng [46] (xem sau này trong AdaBoost dựa trên phương pháp).Hình 2.3. Có hiệu lực kéo dài tuyến tính và và biểu đồ sự ngang nhau. (a) ban đầu subwindow. (b) linearly kéo dài. (c) biểu đồ gỡ.2.3 gaussian hỗn hợp mô hìnhCác bản phân phối của khuôn mặt và nonface subwindows trong một không gian chiều cao rất phức tạp. Người ta tin rằng một phân phối Gaussian duy nhất không thể giải thích tất cả các biến thể. Hát và Poggio [41] đề xuất để đối phó với phức tạp này bởi phân vùng mặt đào tạo dữ liệu vào một số khuôn mặt (6) cụm và nonface đào tạo dữ liệu vào một số nonface (6) cụm, nơi những con số cụm được lựa chọn empirically. Các cụm được thực hiện bằng cách sử dụng một thuật toán k-phương tiện modiﬁed dựa trên khoảng cách Mahalanobis [41] trong không gian hình ảnh hoặc một số không gian khác. Hình 2,5 cho thấy centroids kết quả mặt và nonface cụm. Mỗi nhóm có thể được tiếp tục mô hình hóa bởi thành phần chính của nó bằng cách sử dụng các kỹ thuật PCA. Dựa trên multiGaussian và mô hình hóa PCA, một classiﬁer tham số có thể được xây dựng dựa trên khoảng cách điểm chiếu trong các subspaces và từ subspaces [41]. Các cụm cũng có thể được thực hiện bằng cách sử dụng yếu tố phân tích và bản đồ tự tổ chức (SOM) [51]. Hình 2.5. Centroid hình ảnh của sáu mặt cụm (a) và sáu nonface cụm (b).Người ta tin rằng một vài (ví dụ như, sáu) phân phối Gaussian là không đủ để mô hình phân phối mặt và thậm chí ít hơn sufﬁcient để mô hình phân phối nonface. Tuy nhiên, nó được báo cáo trong [23] kết quả tốt đạt được bằng cách sử dụng một phân phối Gaussian duy nhất cho khuôn mặt và một cho nonface, với một hạt nhân phi tuyến hỗ trợ vector machine classiﬁer; và thêm thú vị, BDF mặt/nonface classiﬁer trong đó được đào tạo bằng cách sử dụng tương đối nhỏ các bộ dữ liệu: FERET mặt hình ảnh 600 và hình ảnh 9 tự nhiên (nonface), và nó generalizes rất tốt để kiểm tra các hình ảnh. Việc BDF là có giá trị thêm nghiên cứu.3 mạng nơ-ron và hạt nhân dựa trên phương phápPhi tuyến classiﬁcation cho phát hiện khuôn mặt có thể được thực hiện bằng cách sử dụng mạng nơ-ron hoặc phương pháp kernelbased. Với các phương pháp thần kinh [32, 41], một classiﬁer có thể được đào tạo trực tiếp bằng cách sử dụng khuôn mặt preprocessed và bình thường và nonface đào tạo subwindows. Rowley et al. [32] sử dụng subwindow preprocessed 20 × 20 như là một đầu vào cho một mạng nơ-ron. Mạng có các kết nối võng mạc của nó lớp đầu vào và hai cấp độ của bản đồ. Cấp chính bản đồ khối điểm ảnh cho các đơn vị ẩn. Hiện có 4 khối 10 × 10 pixel, 16 các khối điểm ảnh 5 × 5, và 6 chồng chéo sọc ngang 20 × 5 pixels. Mỗi khối đầu vào đến một mạng nơ-ron kết nối đầy đủ và vẽ bản đồ cho các đơn vị ẩn. Các đơn vị 26 ẩn sau đó được ánh xạ tới các đơn vị duy nhất có giá trị đầu ra ngoài và một quyết định ngoài được thực hiện để phân loại subwindow 20 × 20 vào khuôn mặt hoặc nonface. Nhiều bản sao của cùng một mạng có thể được đào tạo và đầu ra của họ kết hợp của trọng tài (định) [32].Đầu vào cho hệ thống Sung và Poggio [41] có nguồn gốc từ sáu mặt và sáu nonface cụm. Thêm speciﬁcally, nó là một vector 2 × 6 = 12 khoảng cách trong PCA subspaces và 2 × 6 = 12 khoảng cách từ PCA subspaces. Các véc tơ 24 chiều tính năng cung cấp một đại diện tốt cho phân loại mô hình khuôn mặt và nonface. Trong cả hai hệ thống, mạng nơ-ron được đào tạo bởi các thuật toán tuyên truyền trở lại.Phi tuyến classiﬁcation cho phát hiện khuôn mặt cũng có thể được thực hiện bằng cách sử dụng hạt nhân SVMs [21, 26, 27], được đào tạo bằng cách sử dụng khuôn mặt và nonface ví dụ. Mặc dù phương pháp như vậy có thể tìm hiểu phi tuyến biên giới, một số lớn các vectơ hỗ trợ có thể cần thiết để nắm bắt một ranh giới rất phi tuyến. Vì lý do này, hiệu suất nhanh thời gian thực cho đến nay đã là một difﬁculty với SVM classiﬁers do đó đào tạo. Mặc dù các hệ thống dựa trên SVM đã được đào tạo bằng cách sử dụng khuôn mặt và nonface subwindows trực tiếp, có là không có lý do tại sao họ không thể được đào tạo bằng cách sử dụng một số tính năng nổi bật có nguồn gốc từ các subwindows.Yang et al. [53] sử dụng tuyết học kiến trúc cho phát hiện khuôn mặt. Tuyết là một mạng lưới thưa thớt của chức năng tuyến tính trong đó Winnow Cập Nhật quy tắc được áp dụng cho học tập. Thuật toán tuyết được thiết kế cho việc học tập với một tập lớn các ứng cử viên tính năng. Nó sử dụng classiﬁcation lỗi để thực hiện multicative Cập Nhật của trọng lượng kết nối các nút mục tiêu.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Một mô hình màu da khả năng, p (màu | f ace), có thể được bắt nguồn từ các mẫu da màu. Điều này có thể được thực hiện trong không gian màu sắc bão hòa có giá trị (HSV) hoặc trong không gian màu bình thường màu đỏ-xanh-màu xanh (RGB) (xem [24, 54] và Chương 6 cho các nghiên cứu so sánh). Một mô hình hỗn hợp Gaussian cho p (màu | f ace) có thể dẫn tới mô hình tốt hơn màu da [49, 50]. Hình 2.2 cho thấy bản đồ phân chia màu da. Một điểm ảnh da màu được tìm thấy nếu khả năng p (H | f ace) là lớn hơn một ngưỡng (0,3), và S và giá trị V là giữa một số giới hạn trên và dưới. Một bản đồ màu da bao gồm một số vùng màu da mà chỉ ra vùng ứng cử viên tiềm năng mặt. Re fi vùng mặt ned có thể thu được bằng cách kết hợp các vùng ứng cử viên dựa trên màu sắc và thông tin không gian. Xử lý sau Heuristic có thể được thực hiện để loại bỏ phát hiện sai. Ví dụ, một khuôn mặt con người có đôi mắt nơi mắt tương ứng với các vùng tối hơn bên trong vùng mặt. Một màu dựa thuật toán nhận diện khuôn mặt tinh vi được trình bày trong Hsu et al. [13].
Mặc dù một hệ thống phát hiện khuôn mặt dựa trên màu sắc có thể được tính toán hấp dẫn, sự hạn chế màu sắc một mình là insuf cient fi để đạt được phát hiện khuôn mặt chính xác cao. Điều này là do sự thay đổi màu sắc trên khuôn mặt lớn như là một kết quả của ánh sáng khác nhau, bóng, và dân tộc ít người. Thật vậy, đó là sự xuất hiện, mặc dù mức độ màu hoặc màu xám, chứ không phải là màu sắc mà là điều cần thiết nhất để phát hiện khuôn mặt. Màu da thường được kết hợp với các cue chuyển động để cải thiện độ tin cậy để phát hiện khuôn mặt và theo dõi trên video [49, 50]. Tuy nhiên, các hệ thống phát hiện khuôn mặt thành công nhất không dựa vào màu sắc hay chuyển động thông tin, chưa đạt được hiệu suất tốt.
2.2 Hình ảnh Normalization
phương pháp Appearance dựa trên hoạt động trên subwindows của một kích thước cố định fi. Do đó, thay đổi kích thước rõ ràng hoặc ngầm (ví dụ, 20 × 20 pixel) là cần thiết. Bình thường của cường độ pixel giúp biến thể chính xác trong các thông số hình ảnh trong máy ảnh cũng như những thay đổi trong điều kiện ánh sáng. Ý nghĩa của thay đổi kích thước là rõ ràng; hoạt động cường độ bình thường, bình thường hóa bao gồm giá trị trung bình, histogram equalization, và chỉnh ánh sáng, được mô tả dưới đây. Một hoạt động cường độ bình thường đơn giản là tuyến tính kéo dài. Một cân bằng histogram giúp giảm cực sáng (Hình 2.3). Trong một hoạt động điều chỉnh ánh sáng đơn giản, các subwindow I (x, y) là fi tted với mặt phẳng fi fitting tốt nhất I (x, y) = a × x + b × y + c, trong đó các giá trị của các fi coef cients a, b và c có thể được ước tính bằng cách sử dụng phương pháp bình phương nhỏ nhất; và sau đó chiếu sáng cực là giảm sự khác biệt hình ảnh I (x, y) = I (x, y) - I '(x, y) (Hình 2.4) [32, 41]. Sau khi bình thường hóa, sự phân bố của các hình ảnh subwindow càng trở nên nhỏ gọn và tiêu chuẩn hóa, giúp giảm bớt sự phức tạp của các mặt tiếp theo / nonface classi fi cation. Lưu ý rằng các hoạt động này là "toàn cầu" trong ý nghĩa rằng tất cả các điểm ảnh có thể bị ảnh hưởng sau khi một hoạt động. Cường độ bình thường cũng có thể được áp dụng cho các tiểu vùng địa phương, như là trong trường hợp cho tính năng Haar wavelet địa phương [46] (xem phần bên dưới các phương pháp dựa trên AdaBoost). Hình. 2.3. Ảnh hưởng của tuyến tính kéo dài và và biểu đồ cân bằng. (A) subwindow gốc. (B) tuyến tính kéo dài. (C) Histogram gỡ hòa. 2.3 Hỗn hợp Gaussian Mô hình Sự phân bố của khuôn mặt và nonface subwindows trong một không gian chiều cao rất phức tạp. Người ta tin rằng một phân phối Gaussian duy nhất không thể giải thích tất cả các biến thể. Sung và Poggio [41] đề xuất để đối phó với sự phức tạp này bằng cách phân vùng dữ liệu huấn luyện mặt thành nhiều cụm (sáu) khuôn mặt, và dữ liệu huấn luyện nonface thành nhiều cụm (sáu) nonface, nơi con số cụm được chọn theo kinh nghiệm. Các phân nhóm được thực hiện bằng cách sử dụng một Modi fi ed k-means thuật toán dựa trên khoảng cách Mahalanobis [41] trong không gian ảnh hoặc một số không gian khác. Hình 2.5 cho thấy các trọng tâm của khuôn mặt và nonface cụm kết quả. Mỗi cụm có thể được mô hình hóa hơn nữa bởi các thành phần chính của nó bằng cách sử dụng kỹ thuật PCA. Dựa trên mô hình multiGaussian và PCA, một tham số phân loại fi er có thể được xây dựng dựa trên khoảng cách của điểm chiếu trong subspaces và từ subspaces [41]. Các phân nhóm cũng có thể được thực hiện bằng cách sử dụng phân tích nhân tố và bản đồ tự tổ chức (SOM) [51]. Hình. 2.5. Hình ảnh trọng tâm của cụm sáu mặt (a) và sáu cụm nonface (b). Người ta tin rằng một số ít (ví dụ, sáu) phân bố Gaussian là không đủ để mô hình phân phối mặt và thậm chí còn ít rừng đặc dụng fi cient để mô hình phân phối nonface. Tuy nhiên, nó được báo cáo trong [23] rằng kết quả tốt đạt được bằng cách sử dụng một phân phối duy nhất Gaussian cho khuôn mặt và một cho nonface, với một phi tuyến hỗ trợ hạt nhân máy vector phân loại fi er; và thú vị hơn, khuôn mặt BDF / nonface classi fi er trong đó được huấn luyện sử dụng bộ dữ liệu tương đối nhỏ: 600 hình ảnh khuôn mặt Feret và 9 tự nhiên (nonface) hình ảnh, và nó khái quát rất tốt để hình ảnh thử nghiệm. Các công trình nghiên cứu có giá trị BDF hơn. 3 Neural Networks và Kernel Phương pháp dựa trên phi tuyến phân loại cation fi để phát hiện khuôn mặt có thể được thực hiện bằng cách sử dụng mạng thần kinh hoặc các phương pháp kernelbased. Với các phương pháp thần kinh [32, 41], một fi er phân loại có thể được đào tạo trực tiếp sử dụng tiền xử lý và chuẩn hóa mặt và đào tạo nonface subwindows. Rowley et al. [32] sử dụng tiền xử lý 20 × 20 subwindow như một đầu vào một mạng lưới thần kinh. Các mạng có kết nối võng mạc lớp đầu vào của nó và hai cấp độ của bản đồ. Mức độ đầu tiên fi đồ khối pixel cho các đơn vị ẩn. Có 4 khối 10 × 10 pixels, 16 khối 5 × 5 pixels, và 6 sọc ngang chồng chéo 20 × 5 pixel. Mỗi khối là đầu vào cho một mạng lưới thần kinh đầy đủ kết nối và ánh xạ tới các đơn vị ẩn. 26 đơn vị ẩn sau đó được ánh xạ tới các fi nal duy nhất có giá trị đơn vị đầu ra và quyết định nal fi được thực hiện để phân loại 20 × 20 subwindow vào mặt hoặc nonface. Nhiều bản sao của cùng một mạng có thể được đào tạo và đầu ra của họ kết hợp của trọng tài (ANDing) [32]. Các đầu vào cho hệ thống của Sung và Poggio [41] có nguồn gốc từ những cụm sáu mặt và sáu nonface. Hơn Speci fi Cally, nó là một vector của 2 × 6 = 12 khoảng cách trong subspaces PCA và 2 × 6 = 12 khoảng cách từ subspaces PCA. Các vector đặc trưng 24 chiều cung cấp một đại diện tốt cho việc phân loại mặt và nonface mẫu. Trong cả hai hệ thống, mạng lưới thần kinh được đào tạo bởi các thuật toán lan truyền ngược. classi Nonlinear fi cation để phát hiện khuôn mặt cũng có thể được thực hiện bằng cách sử dụng SVMs hạt nhân [21, 26, 27], được đào tạo sử dụng khuôn mặt và nonface ví dụ. Mặc dù phương pháp này có thể học được ranh giới phi tuyến, một số lượng lớn các vector hỗ trợ có thể cần thiết để nắm bắt một ranh giới rất phi tuyến. Vì lý do này, hiệu suất thời gian thực nhanh cho đến nay đã được một fi gặp khó khăn với SVM ers fi classi đào tạo như vậy. Mặc dù các hệ thống dựa trên SVM đã được đào tạo sử dụng các khuôn mặt và nonface subwindows trực tiếp, không có lý do tại sao họ không thể được đào tạo sử dụng một số tính năng nổi bật có nguồn gốc từ các subwindows. Yang et al. [53] sử dụng kiến trúc học tập tuyết để phát hiện khuôn mặt. Tuyết là một mạng lưới thưa thớt các chức năng tuyến tính trong đó vỗ tắc cập nhật được áp dụng cho việc học tập. Các thuật toán tuyết được thiết kế cho việc học tập với một tập hợp lớn các tính năng ứng cử viên. Nó sử dụng phân loại lỗi fi cation để thực hiện cập nhật multicative của các trọng kết nối các nút đích.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.