Chúng tôi mô tả một mô hình trả lời câu hỏi đó áp dụng cho cả hai hình ảnh và kiến thức về cấu trúc
các căn cứ. Mô hình này sử dụng các chuỗi ngôn ngữ tự nhiên để tự động lắp ráp mạng lưới thần kinh từ một bộ sưu tập các module composable. Các tham số cho các mô-đun được học cùng với các thông số mạng-lắp ráp qua học tăng cường, với chỉ (thế giới, câu hỏi, câu trả lời) gấp ba lần như giám sát. Cách tiếp cận của chúng tôi, mà chúng tôi gọi một mạng lưới phân hệ thần kinh động, đạt được nhà nước-of-theart kết quả trên tập dữ liệu chuẩn trong cả hai lĩnh vực thị giác và cấu trúc
đang được dịch, vui lòng đợi..