Các kích thước đầu vào là 3 16 128 171. Chúng tôi cũng sử dụng jittering bằng cách sử dụng cây ngẫu nhiên với kích thước 3 16 112 112 của clip đầu vào trong quá trình đào tạo. Các mạng có các lớp 5 convolution và 5 tổng hợp các lớp (mỗi lớp convolution ngay lập tức tiếp theo là một lớp pooling), đầy đủ kết nối 2 lớp và một softmax mất lớp để dự đoán hành động nhãn. Số lượng các bộ lọc cho 5 convolution lớp từ 1 đến 5 là 64, 128, 256, 256, 256, tương ứng. Tất cả convolution hạt nhân có kích thước của d, d đâu sâu thời gian hạt nhân (chúng ta sau này sẽ thay đổi giá trị d của các lớp để tìm kiếm một kiến trúc 3D tốt)
đang được dịch, vui lòng đợi..
