Chúng ta bắt đầu với một cuộc thảo luận cấp cao của các loại mạng sáng tác, chúng tôi muốn tìm hiểu. Andreas et al. (2016) mô tả một cách tiếp cận heuristic cho phân hủy câu hỏi trực quan trả lời các nhiệm vụ vào chuỗi các mô-đun vấn đề phụ. Ví dụ, câu hỏi màu gì là loài chim? Có thể được trả lời trong hai bước: đầu tiên, "? Đâu là chim" (Hình 2a), thứ hai, "những gì màu sắc là một phần của hình ảnh?" (Hình 2c). Bước đầu tiên này, một mô-đun chung gọi là tìm kiếm, có thể được thể hiện như một mảnh của một mạng lưới thần kinh mà các bản đồ từ các tính năng hình ảnh và một mục từ vựng (ở đây chim) để phân phối trên điểm ảnh. Hoạt động này thường được gọi là cơ chế sự chú ý, và là một công cụ tiêu chuẩn cho các thao tác hình ảnh (Xu et al., 2015) và đại diện văn bản (Hermann et al., 2015).
đang được dịch, vui lòng đợi..
