Artificial intelligence may one day

Artificial intelligence may one day embrace the meaning of the expression "A picture is worth a thousand words," as scientists are now teaching programs to describe images as humans would.

Someday, computers may even be able to explain what is happening in videos just as people can, the researchers said in a new study.

Computers have grown increasingly better at recognizing faces and other items within images. Recently, these advances have led to image captioning tools that generate literal descriptions of images. [Super-Intelligent Machines: 7 Robotic Futures]
Now, scientists at Microsoft Research and their colleagues are developing a system that can automatically describe a series of images in much the same way a person would by telling a story. The aim is not just to explain what items are in the picture, but also what appears to be happening and how it might potentially make a person feel, the researchers said. For instance, if a person is shown a picture of a man in a tuxedo and a woman in a long, white dress, instead of saying, "This is a bride and groom," he or she might say, "My friends got married. They look really happy; it was a beautiful wedding."

The researchers are trying to give artificial intelligence those same storytelling capabilities.

"The goal is to help give AIs more human-like intelligence, to help it understand things on a more abstract level — what it means to be fun or creepy or weird or interesting," said study senior author Margaret Mitchell, a computer scientist at Microsoft Research. "People have passed down stories for eons, using them to convey our morals and strategies and wisdom. With our focus on storytelling, we hope to help AIs understand human concepts in a way that is very safe and beneficial for mankind, rather than teaching it how to beat mankind.
Telling a story

To build a visual storytelling system, the researchers used deep neural networks, computer systems that learn by example — for instance, learning how to identify cats in photos by analyzing thousands of examples of cat images. The system the researchers devised was similar to those used for automated language translation, but instead of teaching the system to translate from one language to another, the scientists trained it to translate images into sentences.

The researchers used Amazon's Mechanical Turk, a crowdsourcing marketplace, to hire workers to write sentences describing scenes consisting of five or more photos. In total, the workers described more than 65,000 photos for the computer system. These workers' descriptions could vary, so the scientists preferred to have the system learn from accounts of scenes that were similar to other accounts of those scenes. [History of A.I.: Artificial Intelligence (Infographic)]
One challenge the researchers faced was how to evaluate how effective the system was at generating stories. The best and most reliable way to evaluate story quality is human judgment, but the computer generated thousands of stories that would take people a lot of time and effort to examine.

Instead, the scientists tried automated methods for evaluating story quality, to quickly assess computer performance. In their tests, they focused on one automated method with assessments that most closely matched human judgment. They found that this automated method rated the computer storyteller as performing about as well as human storytellers.

Then, the scientists fed their system more than 8,100 new images to examine what stories it generated. For instance, while an image captioning program might take five images and say, "This is a picture of a family; this is a picture of a cake; this is a picture of a dog; this is a picture of a beach," the storytelling program might take those same images and say, "The family got together for a cookout; they had a lot of delicious food; the dog was happy to be there; they had a great time on the beach; they even had a swim in the water.

Artificial intelligence may one day embrace the meaning of the expression "A picture is worth a thousand words," as scientists are now teaching programs to describe images as humans would.

Someday, computers may even be able to explain what is happening in videos just as people can, the researchers said in a new study.

Computers have grown increasingly better at recognizing faces and other items within images. Recently, these advances have led to image captioning tools that generate literal descriptions of images. [Super-Intelligent Machines: 7 Robotic Futures]
Now, scientists at Microsoft Research and their colleagues are developing a system that can automatically describe a series of images in much the same way a person would by telling a story. The aim is not just to explain what items are in the picture, but also what appears to be happening and how it might potentially make a person feel, the researchers said. For instance, if a person is shown a picture of a man in a tuxedo and a woman in a long, white dress, instead of saying, "This is a bride and groom," he or she might say, "My friends got married. They look really happy; it was a beautiful wedding."

The researchers are trying to give artificial intelligence those same storytelling capabilities.

"The goal is to help give AIs more human-like intelligence, to help it understand things on a more abstract level — what it means to be fun or creepy or weird or interesting," said study senior author Margaret Mitchell, a computer scientist at Microsoft Research. "People have passed down stories for eons, using them to convey our morals and strategies and wisdom. With our focus on storytelling, we hope to help AIs understand human concepts in a way that is very safe and beneficial for mankind, rather than teaching it how to beat mankind.
Telling a story

To build a visual storytelling system, the researchers used deep neural networks, computer systems that learn by example — for instance, learning how to identify cats in photos by analyzing thousands of examples of cat images. The system the researchers devised was similar to those used for automated language translation, but instead of teaching the system to translate from one language to another, the scientists trained it to translate images into sentences.

The researchers used Amazon's Mechanical Turk, a crowdsourcing marketplace, to hire workers to write sentences describing scenes consisting of five or more photos. In total, the workers described more than 65,000 photos for the computer system. These workers' descriptions could vary, so the scientists preferred to have the system learn from accounts of scenes that were similar to other accounts of those scenes. [History of A.I.: Artificial Intelligence (Infographic)]
One challenge the researchers faced was how to evaluate how effective the system was at generating stories. The best and most reliable way to evaluate story quality is human judgment, but the computer generated thousands of stories that would take people a lot of time and effort to examine.

Instead, the scientists tried automated methods for evaluating story quality, to quickly assess computer performance. In their tests, they focused on one automated method with assessments that most closely matched human judgment. They found that this automated method rated the computer storyteller as performing about as well as human storytellers.

Then, the scientists fed their system more than 8,100 new images to examine what stories it generated. For instance, while an image captioning program might take five images and say, "This is a picture of a family; this is a picture of a cake; this is a picture of a dog; this is a picture of a beach," the storytelling program might take those same images and say, "The family got together for a cookout; they had a lot of delicious food; the dog was happy to be there; they had a great time on the beach; they even had a swim in the water.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Trí tuệ nhân tạo có thể một ngày ôm ý nghĩa của biểu thức bây giờ "một bức tranh là giá trị một ngàn chữ," như các nhà khoa học đang giảng dạy các chương trình để mô tả hình ảnh như con người.Một ngày nào đó, các máy tính có thể thậm chí có thể để giải thích những gì đang xảy ra trong video cũng giống như mọi người có thể, các nhà nghiên cứu cho biết trong một nghiên cứu mới.Máy tính đã phát triển ngày càng tốt hơn lúc nhận ra khuôn mặt và các mặt hàng khác trong hình ảnh. Gần đây, những tiến bộ đã dẫn tới hình ảnh tạo phụ đề các công cụ tạo ra chữ mô tả của hình ảnh. [Máy siêu thông minh: 7 Robot tương lai]Bây giờ, các nhà khoa học tại Microsoft Research và đồng nghiệp của họ đang phát triển một hệ thống tự động có thể mô tả một loạt các hình ảnh trong nhiều theo cùng một cách một người nào bằng cách kể một câu chuyện. Mục đích là không chỉ để giải thích các mục trong hình, nhưng cũng những gì có vẻ là xảy ra và làm thế nào nó có thể có khả năng làm một người cảm thấy, các nhà nghiên cứu cho biết. Ví dụ, nếu một người được hiển thị một hình ảnh của một người đàn ông trong một tuxedo và một người phụ nữ trong một chiếc váy dài, màu trắng, thay vào đó nói, "Đây là một cô dâu và chú rể," Anh ta hoặc cô ấy có thể nói, "bạn bè của tôi đã lập gia đình. Họ trông thực sự hạnh phúc; đó là một đám cưới đẹp."Các nhà nghiên cứu đang cố gắng để cung cấp cho trí tuệ nhân tạo những khả năng kể chuyện tương tự."Mục đích là để giúp cho AIs thêm trí thông minh như con người, để giúp nó hiểu những điều trên một mức độ trừu tượng hơn-những gì nó có nghĩa là để được vui vẻ hay đáng sợ hoặc lạ hoặc thú vị," cho biết nghiên cứu cao cấp tác giả Margaret Mitchell, một nhà khoa học máy tính tại Microsoft Research. "Người đã truyền lại câu chuyện cho eons, sử dụng chúng để truyền đạt đạo Đức và chiến lược và sự khôn ngoan của chúng tôi. Với chúng tôi tập trung vào kể chuyện, chúng tôi hy vọng sẽ giúp AIs hiểu các khái niệm của con người trong một cách đó là rất an toàn và mang lại lợi ích cho nhân loại, chứ không phải dạy nó làm thế nào để đánh bại nhân loại.Kể một storyĐể xây dựng một hệ thống kể chuyện trực quan, các nhà nghiên cứu sử dụng sâu thần kinh mạng lưới, Hệ thống máy tính tìm hiểu bằng cách ví dụ — ví dụ, học làm thế nào để xác định các mèo trong hình ảnh bằng cách phân tích hàng ngàn trong ví dụ của hình ảnh con mèo. Hệ thống các nhà nghiên cứu đưa ra là tương tự như sử dụng cho các bản dịch tự động các ngôn ngữ, nhưng thay vì giảng dạy của hệ thống để dịch từ một ngôn ngữ khác, các nhà khoa học đào tạo để chuyển hình ảnh thành câu.Các nhà nghiên cứu sử dụng của Amazon cơ khí Turk, một thị trường crowdsourcing, để thuê nhân công để viết câu mô tả cảnh bao gồm hình ảnh năm hoặc nhiều hơn. Tổng cộng, các công nhân mô tả hình ảnh hơn 65.000 cho hệ thống máy tính. Mô tả các công nhân có thể khác nhau, do đó, các nhà khoa học ưa thích để có hệ thống học từ tài khoản của những cảnh tương tự như các tài khoản khác của những cảnh. [Lịch sử của A.I.: Artificial Intelligence (Infographic)]Một trong những thách thức phải đối mặt với các nhà nghiên cứu đã làm thế nào để đánh giá hiệu quả như thế nào hệ thống là lúc tạo ra những câu chuyện. Cách tốt nhất và đáng tin cậy nhất để đánh giá chất lượng của câu chuyện là phán quyết của con người, nhưng máy tính tạo ra hàng ngàn câu chuyện sẽ có người rất nhiều thời gian và nỗ lực để kiểm tra.Thay vào đó, các nhà khoa học đã cố gắng tự động các phương pháp để đánh giá chất lượng của câu chuyện, để nhanh chóng đánh giá hiệu suất máy tính. Trong các thử nghiệm của họ, họ tập trung vào một trong những phương pháp tự động với đánh giá chặt chẽ nhất phù hợp với bản án của con người. Họ đã tìm thấy rằng điều này tự động phương pháp xếp hạng máy tính storyteller như thực hiện về cũng như người kể chuyện của con người.Sau đó, các nhà khoa học đưa hệ thống của họ hơn 8.100 mới hình ảnh để kiểm tra những câu chuyện mà nó tạo ra. Ví dụ, trong khi một hình ảnh tạo phụ đề chương trình có thể mất năm hình ảnh và nói, "đây là một hình ảnh của một gia đình; đây là một hình ảnh của một chiếc bánh; đây là một hình ảnh của một con chó; đây là một hình ảnh của một bãi biển,"chương trình kể chuyện có thể đưa những hình ảnh cùng và nói,"gia đình đã cùng nhau cho một cookout; họ đã có rất nhiều món ăn ngon; con chó đã được hạnh phúc để ở đó; họ đã có một thời gian tuyệt vời trên bãi biển; họ thậm chí đã có một bơi lội trong nước.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Trí thông minh nhân tạo có thể một ngày nào đó nắm lấy ý nghĩa của khái niệm "Một bức tranh trị giá một ngàn chữ," như các nhà khoa học hiện đang giảng dạy chương trình để mô tả hình ảnh như con người sẽ.

Một ngày nào đó, máy tính có thể thậm chí có thể giải thích những gì đang xảy ra trong video chỉ là mọi người có thể, các nhà nghiên cứu cho biết trong một nghiên cứu mới.

Máy tính đã phát triển ngày càng dàng nhận diện khuôn mặt và các mặt hàng khác trong hình ảnh. Gần đây, những tiến bộ này đã dẫn đến các công cụ hình ảnh phụ đề mà tạo ra giới thiệu đen của hình ảnh. [Super-Intelligent Máy móc: 7 robot tương lai]
Bây giờ, các nhà khoa học tại Viện nghiên cứu Microsoft và các đồng nghiệp của họ đang phát triển một hệ thống có thể tự động mô tả một loạt các hình ảnh theo cách rất giống một người sẽ bằng cách kể một câu chuyện. Mục đích không phải là chỉ để giải thích mục nào có trong hình ảnh, nhưng cũng là những gì xuất hiện để được xảy ra và làm thế nào nó có khả năng có thể làm cho một người cảm thấy, các nhà nghiên cứu cho biết. Ví dụ, nếu một người được thể hiện một hình ảnh của một người đàn ông trong bộ tuxedo và một phụ nữ trong một dài, váy trắng, thay vì nói, "Đây là một cô dâu và chú rể", anh ta hoặc cô ta có thể nói, "Những người bạn của tôi đã kết hôn . Họ trông thực sự hạnh phúc, nó là một đám cưới đẹp ".

Các nhà nghiên cứu đang cố gắng để cung cấp cho trí tuệ nhân tạo những khả năng kể chuyện như vậy.

" Mục đích là để giúp cho AI hơn trí thông minh của con người như thế, để giúp nó hiểu được những điều trên một mức độ trừu tượng hơn - những gì nó có nghĩa là để được vui vẻ hoặc đáng sợ hoặc lạ hoặc thú vị ", nghiên cứu tác giả Margaret Mitchell, một nhà khoa học máy tính tại Microsoft Research cho biết. "Mọi người đã truyền lại câu chuyện cho kiếp, sử dụng chúng để chuyển tải đạo đức và chiến lược của chúng tôi và sự khôn ngoan. Với sự tập trung của chúng tôi về kể chuyện, chúng tôi hy vọng sẽ giúp AIS hiểu khái niệm của con người trong một cách mà rất an toàn và mang lại lợi ích cho nhân loại, chứ không phải dạy nó . làm thế nào để đánh bại nhân loại
Telling một câu chuyện

hệ thống ví dụ, học tập làm thế nào để xác định con mèo trong ảnh bằng cách phân tích hàng ngàn ví dụ về hình ảnh con mèo -. để xây dựng một hệ thống kể chuyện trực quan, các nhà nghiên cứu sử dụng các mạng thần kinh sâu, hệ thống máy tính mà học bằng ví dụ các nhà nghiên cứu đã phát minh ra cũng tương tự như những người sử dụng cho dịch thuật tự động, nhưng thay vì dạy hệ thống dịch từ một ngôn ngữ khác, các nhà khoa học được đào tạo nó để dịch hình ảnh thành câu.

các nhà nghiên cứu sử dụng Mechanical Turk của Amazon, một thị trường crowdsourcing, cho thuê công nhân để viết câu mô tả cảnh bao gồm năm hoặc nhiều bức ảnh. trong tổng số, người lao động được mô tả hơn 65.000 bức ảnh cho các hệ thống máy tính. Giới thiệu những người lao động có thể thay đổi, vì vậy các nhà khoa học ưa thích để có hệ thống học hỏi từ các tài khoản của những cảnh đó cũng tương tự như các tài khoản khác của những cảnh quay. [Lịch sử AI: Artificial Intelligence (Infographic)]
Một thách thức các nhà nghiên cứu phải đối mặt là làm thế nào để đánh giá hiệu quả của hệ thống này là ở những câu chuyện tạo ra. Cách tốt nhất và đáng tin cậy nhất để đánh giá chất lượng câu chuyện là sự đánh giá của con người, nhưng các máy tính tạo ra hàng ngàn câu chuyện mà có thể đưa mọi người rất nhiều thời gian và công sức để kiểm tra.

Thay vào đó, các nhà khoa học đã cố gắng phương pháp tự động cho chất lượng câu chuyện đánh giá, để nhanh chóng đánh giá máy tính hiệu suất. Trong các thử nghiệm, họ tập trung vào một phương pháp tự động với các đánh giá mà kết hợp chặt chẽ nhất phán xét con người. Họ nhận thấy rằng phương pháp tự động này đánh giá người kể chuyện máy tính như thực hiện về cũng như những người kể chuyện con người.

Sau đó, các nhà khoa học đưa hệ thống của họ hơn 8.100 hình ảnh mới để kiểm tra những gì câu chuyện nó tạo ra. Ví dụ, trong khi một chương trình hình ảnh phụ đề có thể mất năm hình ảnh và nói: "Đây là một hình ảnh của một gia đình, đây là một hình ảnh của một chiếc bánh, đây là một hình ảnh của một con chó, đây là một hình ảnh của một bãi biển", các chương trình kể chuyện có thể mất những hình ảnh giống nhau và nói: "gia đình đã cùng nhau cho một cookout, họ đã có rất nhiều món ăn ngon, con chó vui là đã có, họ đã có một thời gian tuyệt vời trên bãi biển, họ thậm chí đã có một bơi trong nước.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.