4,5 cascade của mạnh mẽ ClassifiersMột mạnh mẽ classifier boosted có hiệu quả loại bỏ một phần lớn của nonface subwindows trong khi duy trì một tỷ lệ phát hiện cao. Tuy nhiên, một classifier mạnh duy nhất có thể không đáp ứng yêu cầu của một tỷ lệ rất thấp false alarm (ví dụ như, 10−6 hoặc thậm chí thấp hơn). Một giải pháp là để phân xử giữa một số thiết bị dò (mạnh mẽ classifier) [32], ví dụ, bằng cách sử dụng các hoạt động "Và".Hình 2.10. Một thác n mạnh mẽ classifiers (SC). Đầu vào là một subwindow x. Nó được gửi đến SC tiếp theo cho thêm classification chỉ khi nó đã thông qua tất cả các SCs trước đó như là mô hình khuôn mặt (F); Nếu không, nó đi ra như nonface (N). x là finally được coi là một khuôn mặt khi nó vượt qua tất cả n SCs.Viola và Jones [46, 47] tiếp tục mở rộng ý tưởng này bởi đào tạo một thác bao gồm một thác của các mạnh mẽ classifiers, như minh hoạ trong hình 2.10. Một classifier mạnh mẽ được huấn luyện bằng cách sử dụng ví dụ bootstrapped nonface đi qua cascade được đào tạo trước đây. Thông thường, 10-20 mạnh mẽ classifiers được cascaded. Để phát hiện khuôn mặt, subwindows mà không vượt qua một classifier mạnh không tiếp tục xử lý bởi classifiers mạnh tiếp theo. Tốc độ này significantly chiến lược có thể lên phát hiện và giảm báo động sai, với một chút sacrifice của tỷ lệ phát hiện.5 đối phó với phép quay đầuPhát hiện khuôn mặt MultiView có thể phát hiện khuôn mặt nonfrontal. Có ba loại đầu xoay: xoay (1) ra-của-plane (trái-phải); (2) trong máy bay quay; và (3) lên và xuống gật đầu xoay. Kiến trúc kim tự tháp phát hiện việc áp dụng một chiến lược thô fine xem-phân vùng, bao gồm nhiều tầng lớp từ cấp cao nhất thô để cấp độ dưới fine.Rowley et al. [31] đề xuất để sử dụng hai mạng nơ-ron classifiers để phát hiện các khuôn mặt phía trước tùy thuộc vào trong máy bay quay. Chính là bộ định tuyến mạng, được đào tạo để ước tính định hướng của một khuôn mặt giả định trong subwindow, mặc dù cửa sổ có thể chứa một mô hình nonface. Đầu vào mạng là các giá trị cường độ trong một subwindow preprocessed 20 × 20. Góc quay được đại diện bởi một loạt các đơn vị sản lượng 36, trong đó mỗi đơn vị đại diện cho một phạm vi anglar. Với dân số ước tính định hướng, subwindow derotated để làm cho khuôn mặt tiềm năng thẳng đứng. Mạng nơ-ron thứ hai là một bình thường trán, phát hiện khuôn mặt thẳng đứng.Li et al. [18, 20] xây dựng một kim tự tháp phát hiện để phát hiện sự hiện diện của khuôn mặt thẳng đứng, tùy thuộc vào ra của máy bay xoay trong phạm vi Θ = [−90◦, + 90◦] và trong-chiếc máy bay quay Φ = [−45◦, + 45◦]. Xoay trong máy bay trong Φ = [−45, +45] có thể được xử lý như sau: (1) Φ chia ba subranges: Φ1 = [−45, −15], Φ2 = [−15, + 15], và Φ3 = [+ 15, +45]. (2) áp dụng các kim tự tháp phát hiện trên hình ảnh ban đầu và hai hình ảnh có nguồn gốc từ một bản gốc; hai hình ảnh có nguồn gốc bằng cách xoay một bản gốc trong mặt phẳng hình ảnh bởi ±30 (con số 2,11). Điều này có hiệu quả bao gồm trong-máy bay-xoay trong [−45, +45]. Việc luân chuyển lên và xuống nodding xử lý của khoan dung của phát hiện khuôn mặt này.2.11 hình. Trung: Một hình ảnh có chứa khuôn mặt phía trước tùy thuộc vào trong máy bay quay. Trái và bên phải: trong máy bay xoay bởi ±30◦.Thiết kế của các kim tự tháp phát hiện thông qua chiến lược thô fine và đơn giản đến phức tạp [2, 8]. Kiến trúc được minh họa trong hình 2.12. Thiết kế kiến trúc này là để phát hiện khuôn mặt tùy thuộc vào ra của máy bay xoay trong Θ = [−90◦, + 90◦] và trong-máy bay quay trong Φ2 = [−15◦, + 15◦]. Quay đầy đủ trong máy bay Φ = [−45◦, + 45◦] được xử lý bằng cách áp dụng các phát hiện kim tự tháp vào hình ảnh xoay ±30◦, như đã đề cập trước đó.Hình 2.12. Detector-tháp mặt multiview phát hiện.Hạt thô để fine phân chia ra máy bay quay dùng cho máy dò ba cấp-kim tự tháp được minh họa trong hình 2,13. Như các mức độ đi từ thô để fine, Θ đầy đủ out-ofplane quay phân vùng vào phạm vi ngày càng hẹp hơn. Mặc dù có không chồng chéo giữa subranges partitioned xem ở mỗi cấp, một phát hiện khuôn mặt được đào tạo cho một giao diện có thể phát hiện khuôn mặt quan điểm giáp ranh của nó. Vì vậy, khuôn mặt phát hiện bởi các kênh bảy ở cấp độ dưới cùng của máy dò kim tự tháp phải được hợp nhất để có được kết quả ngoài. Điều này được minh họa trong hình 2.14.Hình 2,13. Phân vùng ra máy bay xem. Xoay vòng đầu ra của máy bay (hàng 1), xem mặt nhãn (hàng 2) và thô-để-fine xem phân chia ở ba cấp độ của phát hiện kim tự tháp (hàng 3-5).Đơn giản đến phức tạp A nhiều subwindows là kết quả của quét của hình ảnh nhập vào. Ví dụ, có thể có hàng chục đến hàng trăm ngàn người trong số họ cho một hình ảnh kích thước 320 × 240, số lượng thực tế tùy thuộc vào làm thế nào hình ảnh được quét (ví dụ như, liên quan đến các yếu tố tăng quy mô). Với mục đích efficiency, nó là rất quan trọng để loại bỏ subwindows nonface càng nhiều càng tốt ở giai đoạn sớm nhất có thể vì vậy, khi ít như subwindows có thể được thực hiện tiếp tục ở giai đoạn sau này. Do đó, các thiết bị dò trong giai đoạn đầu được thiết kế để được đơn giản để họ có thể từ chối nonface subwindows một cách nhanh chóng với ít tính toán, trong khi những người ở giai đoạn sau là phức tạp hơn và yêu cầu tính toán nhiều.Hình 2.14. Việc sáp nhập từ kênh khác nhau. Từ trái sang phải: kết quả đầu ra của fontal, trái, và phải xem kênh và ngoài kết quả sau khi kết hợp.6 postprocessingMột khuôn mặt duy nhất trong một hình ảnh có thể được phát hiện nhiều lần tại các địa điểm gần hoặc về nhiều quy mô. Báo động sai cũng có thể xảy ra nhưng thường với ít nhất quán hơn nhiều mặt phát hiện. Số lượng nhiều phát hiện trong một khu phố của các vị trí có thể được sử dụng như là một dấu hiệu có hiệu quả cho sự tồn tại của một khuôn mặt tại địa điểm đó. Giả định này dẫn đến một heuristic cho việc giải quyết sự mơ hồ gây ra bởi nhiều phát hiện và loại bỏ các phát hiện sai nhiều. Một phát hiện là confirmed nếu số lượng nhiều phát hiện là lớn hơn một giá trị nhất định; và đưa ra confirmation, nhiều phát hiện được sáp nhập vào một trong những phù hợp. Điều này được thực hiện trong hầu hết hệ thống mặt phát hiện [32, 41]. Con số 2,15 cho một minh hoạ. Hình ảnh ở bên trái cho thấy một kết quả điển hình của phát hiện ban đầu, nơi mặt phát hiện bốn lần với bốn báo động sai trên vải. Bên phải là kết quả ngoài sau khi sáp nhập. Sau khi postprocessing, nhiều phát hiện được sáp nhập vào một khuôn mặt duy nhất và báo động sai được loại bỏ. Con số 2.16 và 2,17 Hiển thị một số điển hình trán và multiview mặt phát hiện ví dụ; hình ảnh multiview mặt là từ cơ sở dữ liệu mặt Carnegie Mellon University (CMU) [45].
đang được dịch, vui lòng đợi..
