Điều này có thể được giải thích bởi thực tế rằng C3D sử dụng nhỏ hơn vào độ phân giải (128 128) so với độ phân giải kích thước đầy đủ (256 256) bằng cách sử dụng bởi Imagenet. Kể từ khi C3D được huấn luyện chỉ về thể thao - 1M video mà không cần bất kỳ điều chỉnh trong khi Imagenet là hoàn toàn được đào tạo trên các đối tượng 1000 loại, chúng tôi đã không mong đợi C3D để làm việc đó tốt trên nhiệm vụ này. Kết quả là rất đáng ngạc nhiên và cho thấy làm thế nào chung C3D là nắm bắt thông tin xuất hiện và chuyển động trong video.
đang được dịch, vui lòng đợi..
