Trí thông minh nhân tạo có thể một ngày nào đó nắm lấy ý nghĩa của khái niệm "Một bức tranh trị giá một ngàn chữ," như các nhà khoa học hiện đang giảng dạy chương trình để mô tả hình ảnh như con người sẽ.
Một ngày nào đó, máy tính có thể thậm chí có thể giải thích những gì đang xảy ra trong video chỉ là mọi người có thể, các nhà nghiên cứu cho biết trong một nghiên cứu mới.
Máy tính đã phát triển ngày càng dàng nhận diện khuôn mặt và các mặt hàng khác trong hình ảnh. Gần đây, những tiến bộ này đã dẫn đến các công cụ hình ảnh phụ đề mà tạo ra giới thiệu đen của hình ảnh. [Super-Intelligent Máy móc: 7 robot tương lai]
Bây giờ, các nhà khoa học tại Viện nghiên cứu Microsoft và các đồng nghiệp của họ đang phát triển một hệ thống có thể tự động mô tả một loạt các hình ảnh theo cách rất giống một người sẽ bằng cách kể một câu chuyện. Mục đích không phải là chỉ để giải thích mục nào có trong hình ảnh, nhưng cũng là những gì xuất hiện để được xảy ra và làm thế nào nó có khả năng có thể làm cho một người cảm thấy, các nhà nghiên cứu cho biết. Ví dụ, nếu một người được thể hiện một hình ảnh của một người đàn ông trong bộ tuxedo và một phụ nữ trong một dài, váy trắng, thay vì nói, "Đây là một cô dâu và chú rể", anh ta hoặc cô ta có thể nói, "Những người bạn của tôi đã kết hôn . Họ trông thực sự hạnh phúc, nó là một đám cưới đẹp ".
Các nhà nghiên cứu đang cố gắng để cung cấp cho trí tuệ nhân tạo những khả năng kể chuyện như vậy.
" Mục đích là để giúp cho AI hơn trí thông minh của con người như thế, để giúp nó hiểu được những điều trên một mức độ trừu tượng hơn - những gì nó có nghĩa là để được vui vẻ hoặc đáng sợ hoặc lạ hoặc thú vị ", nghiên cứu tác giả Margaret Mitchell, một nhà khoa học máy tính tại Microsoft Research cho biết. "Mọi người đã truyền lại câu chuyện cho kiếp, sử dụng chúng để chuyển tải đạo đức và chiến lược của chúng tôi và sự khôn ngoan. Với sự tập trung của chúng tôi về kể chuyện, chúng tôi hy vọng sẽ giúp AIS hiểu khái niệm của con người trong một cách mà rất an toàn và mang lại lợi ích cho nhân loại, chứ không phải dạy nó . làm thế nào để đánh bại nhân loại
Telling một câu chuyện
hệ thống ví dụ, học tập làm thế nào để xác định con mèo trong ảnh bằng cách phân tích hàng ngàn ví dụ về hình ảnh con mèo -. để xây dựng một hệ thống kể chuyện trực quan, các nhà nghiên cứu sử dụng các mạng thần kinh sâu, hệ thống máy tính mà học bằng ví dụ các nhà nghiên cứu đã phát minh ra cũng tương tự như những người sử dụng cho dịch thuật tự động, nhưng thay vì dạy hệ thống dịch từ một ngôn ngữ khác, các nhà khoa học được đào tạo nó để dịch hình ảnh thành câu.
các nhà nghiên cứu sử dụng Mechanical Turk của Amazon, một thị trường crowdsourcing, cho thuê công nhân để viết câu mô tả cảnh bao gồm năm hoặc nhiều bức ảnh. trong tổng số, người lao động được mô tả hơn 65.000 bức ảnh cho các hệ thống máy tính. Giới thiệu những người lao động có thể thay đổi, vì vậy các nhà khoa học ưa thích để có hệ thống học hỏi từ các tài khoản của những cảnh đó cũng tương tự như các tài khoản khác của những cảnh quay. [Lịch sử AI: Artificial Intelligence (Infographic)]
Một thách thức các nhà nghiên cứu phải đối mặt là làm thế nào để đánh giá hiệu quả của hệ thống này là ở những câu chuyện tạo ra. Cách tốt nhất và đáng tin cậy nhất để đánh giá chất lượng câu chuyện là sự đánh giá của con người, nhưng các máy tính tạo ra hàng ngàn câu chuyện mà có thể đưa mọi người rất nhiều thời gian và công sức để kiểm tra.
Thay vào đó, các nhà khoa học đã cố gắng phương pháp tự động cho chất lượng câu chuyện đánh giá, để nhanh chóng đánh giá máy tính hiệu suất. Trong các thử nghiệm, họ tập trung vào một phương pháp tự động với các đánh giá mà kết hợp chặt chẽ nhất phán xét con người. Họ nhận thấy rằng phương pháp tự động này đánh giá người kể chuyện máy tính như thực hiện về cũng như những người kể chuyện con người.
Sau đó, các nhà khoa học đưa hệ thống của họ hơn 8.100 hình ảnh mới để kiểm tra những gì câu chuyện nó tạo ra. Ví dụ, trong khi một chương trình hình ảnh phụ đề có thể mất năm hình ảnh và nói: "Đây là một hình ảnh của một gia đình, đây là một hình ảnh của một chiếc bánh, đây là một hình ảnh của một con chó, đây là một hình ảnh của một bãi biển", các chương trình kể chuyện có thể mất những hình ảnh giống nhau và nói: "gia đình đã cùng nhau cho một cookout, họ đã có rất nhiều món ăn ngon, con chó vui là đã có, họ đã có một thời gian tuyệt vời trên bãi biển, họ thậm chí đã có một bơi trong nước.
đang được dịch, vui lòng đợi..