Một mô hình da khả năng màu, p (color|f ace), có thể được bắt nguồn từ da màu mẫu. Điều này có thể được thực hiện trong không gian màu (HSV) giá trị Huế-bão hòa hoặc trong bình thường màu đỏ màu xanh lá cây, xanh (RGB) không gian màu (xem [24, 54] và chương 6 so sánh nghiên cứu). Một mô hình hỗn hợp Gaussian cho p (color|f ace) có thể dẫn đến tốt hơn làm người mẫu màu da [49, 50]. Con số cho thấy 2.2 da màu phân khúc bản đồ. Một điểm ảnh màu da được tìm thấy nếu khả năng p (H|f ace) là lớn hơn một ngưỡng (0,3), và các giá trị S và V là giữa một số trên và giới hạn thấp hơn. Bản đồ màu da bao gồm một số khu vực màu da cho thấy khu vực mặt ứng cử viên tiềm năng. Refined mặt khu vực có thể được thu được bằng việc sáp nhập các vùng ứng cử viên dựa trên màu sắc và các thông tin không gian. Heuristic postprocessing có thể được thực hiện để loại bỏ các phát hiện sai. Ví dụ, một khuôn mặt của con người có mắt nơi mắt tương ứng với các khu vực tối hơn bên trong vùng mặt. Một khuôn mặt màu tinh vi dựa trên phát hiện thuật toán được trình bày trong Hsu et al. [13].Mặc dù một hệ thống phát hiện màu dựa trên khuôn mặt có thể computationally hấp dẫn, màu sắc hạn chế một mình là insufficient để đạt được độ chính xác cao phát hiện khuôn mặt. Điều này là do sự thay đổi lớn trên khuôn mặt màu là kết quả của ánh sáng khác nhau, bóng, và các nhóm đạo Đức. Thật vậy, nó là sự xuất hiện, mặc dù mức độ màu hoặc màu xám, chứ không phải là màu sắc mà là quan trọng nhất để đối mặt với phát hiện. Màu da thường được kết hợp với chuyển động cue để cải thiện độ tin cậy cho phát hiện khuôn mặt và theo dõi trên video [49, 50]. Tuy nhiên, Hệ thống thành công nhất phát hiện khuôn mặt không dựa vào màu sắc hoặc chuyển động thông tin, được đạt được hiệu suất tốt.2.2 bình thường hóa hình ảnhXuất hiện dựa trên phương pháp hoạt động trên subwindows của một kích thước fixed. Vì vậy, rõ ràng hoặc ngầm thay đổi kích thước (ví dụ như, đến 20 × 20 điểm ảnh) là cần thiết. Bình thường hóa của cường độ pixel giúp các biến thể chính xác trong các thông số hình ảnh trong máy ảnh cũng như những thay đổi trong điều kiện chiếu sáng. Ý nghĩa của thay đổi kích thước là rõ ràng; cường độ hoạt động bình thường, trong đó có nghĩa là giá trị bình thường hóa, biểu đồ sự ngang nhau, và chiếu sáng chỉnh, được mô tả dưới đây. Một hoạt động bình thường hóa đơn giản cường độ là kéo dài tuyến tính. Một sự ngang nhau biểu đồ giúp giảm cực chiếu sáng (con số 2,3). Một đơn giản chiếu sáng chỉnh hoạt động, subwindow I (x, y) là fitted để tốt nhất fitting máy bay tôi (x, y) = một × x + b × y + c, nơi các giá trị của coefficients a, b và c có thể được ước tính bằng cách sử dụng phương pháp tối thiểu; và sau đó cực ánh sáng là giảm trong hình ảnh khác biệt tôi (x, y) = I (x, y) − tôi ' (x, y) (hình 2.4) [32, 41]. Sau khi bình thường hóa, phân phối subwindow hình ảnh trở nên nhỏ gọn và tiêu chuẩn hóa, giúp làm giảm sự phức tạp của classification tiếp theo mặt/nonface. Lưu ý rằng các hoạt động này là "toàn cầu" trong ý nghĩa rằng tất cả các điểm ảnh có thể bị ảnh hưởng sau khi một chiến dịch. Cường độ bình thường có thể cũng được áp dụng cho tiểu vùng địa phương, như là trong trường hợp cho các địa phương Haar bề mặt tính năng [46] (xem sau này trong AdaBoost dựa trên phương pháp).Hình 2.3. Có hiệu lực kéo dài tuyến tính và và biểu đồ sự ngang nhau. (a) ban đầu subwindow. (b) linearly kéo dài. (c) biểu đồ gỡ.2.3 gaussian hỗn hợp mô hìnhCác bản phân phối của khuôn mặt và nonface subwindows trong một không gian chiều cao rất phức tạp. Người ta tin rằng một phân phối Gaussian duy nhất không thể giải thích tất cả các biến thể. Hát và Poggio [41] đề xuất để đối phó với phức tạp này bởi phân vùng mặt đào tạo dữ liệu vào một số khuôn mặt (6) cụm và nonface đào tạo dữ liệu vào một số nonface (6) cụm, nơi những con số cụm được lựa chọn empirically. Các cụm được thực hiện bằng cách sử dụng một thuật toán k-phương tiện modified dựa trên khoảng cách Mahalanobis [41] trong không gian hình ảnh hoặc một số không gian khác. Hình 2,5 cho thấy centroids kết quả mặt và nonface cụm. Mỗi nhóm có thể được tiếp tục mô hình hóa bởi thành phần chính của nó bằng cách sử dụng các kỹ thuật PCA. Dựa trên multiGaussian và mô hình hóa PCA, một classifier tham số có thể được xây dựng dựa trên khoảng cách điểm chiếu trong các subspaces và từ subspaces [41]. Các cụm cũng có thể được thực hiện bằng cách sử dụng yếu tố phân tích và bản đồ tự tổ chức (SOM) [51]. Hình 2.5. Centroid hình ảnh của sáu mặt cụm (a) và sáu nonface cụm (b).Người ta tin rằng một vài (ví dụ như, sáu) phân phối Gaussian là không đủ để mô hình phân phối mặt và thậm chí ít hơn sufficient để mô hình phân phối nonface. Tuy nhiên, nó được báo cáo trong [23] kết quả tốt đạt được bằng cách sử dụng một phân phối Gaussian duy nhất cho khuôn mặt và một cho nonface, với một hạt nhân phi tuyến hỗ trợ vector machine classifier; và thêm thú vị, BDF mặt/nonface classifier trong đó được đào tạo bằng cách sử dụng tương đối nhỏ các bộ dữ liệu: FERET mặt hình ảnh 600 và hình ảnh 9 tự nhiên (nonface), và nó generalizes rất tốt để kiểm tra các hình ảnh. Việc BDF là có giá trị thêm nghiên cứu.3 mạng nơ-ron và hạt nhân dựa trên phương phápPhi tuyến classification cho phát hiện khuôn mặt có thể được thực hiện bằng cách sử dụng mạng nơ-ron hoặc phương pháp kernelbased. Với các phương pháp thần kinh [32, 41], một classifier có thể được đào tạo trực tiếp bằng cách sử dụng khuôn mặt preprocessed và bình thường và nonface đào tạo subwindows. Rowley et al. [32] sử dụng subwindow preprocessed 20 × 20 như là một đầu vào cho một mạng nơ-ron. Mạng có các kết nối võng mạc của nó lớp đầu vào và hai cấp độ của bản đồ. Cấp chính bản đồ khối điểm ảnh cho các đơn vị ẩn. Hiện có 4 khối 10 × 10 pixel, 16 các khối điểm ảnh 5 × 5, và 6 chồng chéo sọc ngang 20 × 5 pixels. Mỗi khối đầu vào đến một mạng nơ-ron kết nối đầy đủ và vẽ bản đồ cho các đơn vị ẩn. Các đơn vị 26 ẩn sau đó được ánh xạ tới các đơn vị duy nhất có giá trị đầu ra ngoài và một quyết định ngoài được thực hiện để phân loại subwindow 20 × 20 vào khuôn mặt hoặc nonface. Nhiều bản sao của cùng một mạng có thể được đào tạo và đầu ra của họ kết hợp của trọng tài (định) [32].Đầu vào cho hệ thống Sung và Poggio [41] có nguồn gốc từ sáu mặt và sáu nonface cụm. Thêm specifically, nó là một vector 2 × 6 = 12 khoảng cách trong PCA subspaces và 2 × 6 = 12 khoảng cách từ PCA subspaces. Các véc tơ 24 chiều tính năng cung cấp một đại diện tốt cho phân loại mô hình khuôn mặt và nonface. Trong cả hai hệ thống, mạng nơ-ron được đào tạo bởi các thuật toán tuyên truyền trở lại.Phi tuyến classification cho phát hiện khuôn mặt cũng có thể được thực hiện bằng cách sử dụng hạt nhân SVMs [21, 26, 27], được đào tạo bằng cách sử dụng khuôn mặt và nonface ví dụ. Mặc dù phương pháp như vậy có thể tìm hiểu phi tuyến biên giới, một số lớn các vectơ hỗ trợ có thể cần thiết để nắm bắt một ranh giới rất phi tuyến. Vì lý do này, hiệu suất nhanh thời gian thực cho đến nay đã là một difficulty với SVM classifiers do đó đào tạo. Mặc dù các hệ thống dựa trên SVM đã được đào tạo bằng cách sử dụng khuôn mặt và nonface subwindows trực tiếp, có là không có lý do tại sao họ không thể được đào tạo bằng cách sử dụng một số tính năng nổi bật có nguồn gốc từ các subwindows.Yang et al. [53] sử dụng tuyết học kiến trúc cho phát hiện khuôn mặt. Tuyết là một mạng lưới thưa thớt của chức năng tuyến tính trong đó Winnow Cập Nhật quy tắc được áp dụng cho học tập. Thuật toán tuyết được thiết kế cho việc học tập với một tập lớn các ứng cử viên tính năng. Nó sử dụng classification lỗi để thực hiện multicative Cập Nhật của trọng lượng kết nối các nút mục tiêu.
đang được dịch, vui lòng đợi..
