Bài viết này trình bày một mô hình sáng tác, attentional để trả lời các câu hỏi về một loạt các đại diện thế giới, bao gồm cả hình ảnh và cấu trúc cơ sở kiến thức. Các mô hình dịch từ câu hỏi để tự động lắp ráp mạng nơ-ron, sau đó áp dụng những mạng lưới này để đại diện thế giới (hình ảnh hoặc kiến thức cơ sở) để sản xuất các câu trả lời. Chúng tôi tận dụng lợi thế của hai dòng công việc phần lớn độc lập: một mặt, một văn học phong phú vào trả lời câu hỏi bằng cách ánh xạ từ dây để hợp lý đại diện của ý nghĩa; mặt khác, một loạt các thành công gần đây trong các mô hình thần kinh sâu cho hình ảnh nhận dạng và tạo phụ đề. Bằng cách xây dựng các mạng lưới thần kinh thay vì logic hình thức, mô hình của chúng tôi thúc đẩy các khía cạnh tốt nhất của cả hai ngôn ngữ compositionality và đại diện liên tục. Mô hình của chúng tôi có hai thành phần, được đào tạo cùng: trước tiên, một bộ sưu tập của thần kinh "mô-đun" mà có thể được tự do sáng tác (hình 1a); Thứ hai, một dự báo bố trí mạng lưới lắp ráp mô-đun vào hoàn tấtmạng lưới sâu phù hợp cho mỗi câu hỏi
đang được dịch, vui lòng đợi..