So với các mạng lưới sâu thời gian khác nhau, độ sâu-3 là người biểu diễn tốt nhất, nhưng khoảng cách nhỏ hơn. Chúng tôi cũng có thể thử nghiệm với lớn hơn không gian tiếp nhận trường (ví dụ: 5 5) và/hoặc giải quyết đầy đủ đầu vào (đầu vào khung 240 320) và vẫn còn quan sát hành vi tương tự.Điều này cho thấy 3 3 3 là sự lựa chọn hạt nhân cho ConvNets 3D (theo chúng tôi tập hợp con của thí nghiệm) và 3D ConvNets một cách nhất quán hơn 2D ConvNets cho video phân loại. Chúng tôi cũng xác nhận rằng 3D ConvNet một cách nhất quán thực hiện tốt hơn so với 2D ConvNet trên một quy mô lớn, nội bộ dữ liệu, cụ thể là I380K.
đang được dịch, vui lòng đợi..
