Tóm tắtChúng tôi đề xuất một cách tiếp cận đơn giản, nhưng hiệu quả nhất spatiotemporaltính năng học tập bằng cách sử dụng sâu 3-chiều xoắnmạng (3D ConvNets) được đào tạo về quy mô lớnGiám sát bộ dữ liệu video. Những phát hiện của chúng tôi được three-fold: 1)3D ConvNets là phù hợp hơn cho các tính năng spatiotemporalhọc tập so với 2D ConvNets; 2) là một kiến trúc đồng nhấtvới nhỏ 3 3 3 convolution hạt nhân trong tất cảlớp là một trong số các hoạt động kiến trúc cho 3D tốt nhấtConvNets; và 3) chúng tôi đã học được các tính năng, cụ thể là C3D (Convolutional3D), với một đơn giản tuyến tính loại tốt hơnnhà nước-of-the-nghệ thuật các phương pháp trên 4 tiêu chuẩn khác nhau và đượcso sánh với phương pháp tốt nhất hiện nay trên 2 tiêu chí chuẩn.Ngoài ra, các tính năng được nhỏ gọn: đạt được52:8% độ chính xác trên UCF101 bộ dữ liệu với kích thước chỉ có 10và cũng rất hiệu quả để tính toán do suy luận nhanh chóngcủa ConvNets. Cuối cùng, họ là khái niệm rấtđơn giản và dễ dàng để đào tạo và sử dụng.
đang được dịch, vui lòng đợi..
