Chúng tôi mô tả một mô hình trả lời câu hỏi đó
áp dụng cho cả hai hình ảnh và cơ sở tri thức có cấu trúc. Mô hình này sử dụng các chuỗi ngôn ngữ tự nhiên để tự động lắp ráp mạng lưới thần kinh từ một bộ sưu tập của composable
mô-đun. Các tham số cho các module được
học cùng với các thông số mạng-lắp ráp qua học tăng cường, với chỉ
(thế giới, câu hỏi, câu trả lời) gấp ba lần như giám sát. Cách tiếp cận của chúng tôi, mà chúng tôi gọi một động
mạng mô-đun thần kinh, đạt được nhà nước-of-theart kết quả trên tập dữ liệu chuẩn trong cả compositionality domainslinguistic thị giác và cấu trúc và cơ quan đại diện liên tục
đang được dịch, vui lòng đợi..
