Tóm tắtChúng tôi đề xuất một cách tiếp cận đơn giản, nhưng hiệu quả cho việc học tập spatiotemporal tính năng sử dụng mạng lưới xoắn sâu 3-chiều (3D ConvNets) được đào tạo về một tập dữ liệu video giám sát quy mô lớn. Những phát hiện của chúng tôi là three-fold:1) 3D ConvNets là phù hợp hơn cho việc học tập spatiotemporal tính năng so với 2D ConvNets; 2) là một kiến trúc đồng nhất với nhỏ 3 3 3 convolution hạt nhân trong tất cả các lớp là một trong số tốt nhất thực hiện kiến trúc 3D ConvNets; và 3) chúng tôi đã học được các tính năng, cụ thể là C3D (mã 3D), với một loại tuyến tính đơn giản tốt hơn nhà nước-of-the-nghệ thuật các phương pháp trên 4 tiêu chuẩn khác nhau và được so sánh với phương pháp tốt nhất hiện nay trên 2 tiêu chí chuẩn.Ngoài ra, các tính năng được nhỏ gọn: để đạt được độ chính xác % 52:8 trên UCF101 bộ dữ liệu với kích thước chỉ có 10 và cũng rất hiệu quả để tính toán do suy luận nhanh của ConvNets. Cuối cùng, họ là khái niệm rất đơn giản và dễ dàng để đào tạo và sử dụng.
đang được dịch, vui lòng đợi..