Máy tính có thể làm một số những điều tuyệt vời gần đây, với những việc như xử lý song song, máy thông minh, và phần cứng mạnh mẽ hơn cho phép những tiến bộ phi thường về những gì có vẻ như một cơ sở hàng ngày. Microsoft đang trong dày của sự vật khi nói đến trí thông minh nhân tạo, và máy học là trung tâm của tất cả. Hôm thứ ba, công ty đã công bố một bước đột phá đáng kể.
Cách tự nhiên nhất cho con người tương tác với máy tính là bằng cách nói chuyện với họ, và Microsoft đã tạo ra công nghệ có thể hiểu ngôn ngữ nói cũng như con người, theo blog của Microsoft. Đạt được cân bằng của con người trong phát biểu công nhận là một thành tựu lịch sử và Microsoft đạt được mốc này nhanh hơn so với dự kiến. "Ngay cả năm năm trước, tôi đã không nghĩ rằng chúng tôi có thể đạt được điều này. Tôi chỉ sẽ không nghĩ rằng nó sẽ có thể, "Harry Shum, phó chủ tịch điều hành phụ trách tình báo và nghiên cứu của Tập đoàn Microsoft cho biết.
Theo một bài báo được công bố vào thứ hai, nhóm nghiên cứu của Microsoft đã tạo ra một hệ thống nhận dạng speec- mà đạt được một tỷ lệ từ lỗi (WER) chỉ có 5,9 phần trăm, giảm từ 6,3 phần trăm báo cáo chỉ cách đây một tháng. Con người ai ghi lại cuộc trò chuyện cùng được sử dụng trong các thử nghiệm cũng đạt khoảng 5,9 phần trăm WER, có nghĩa là lần đầu tiên, một máy tính thực hiện cũng như trong các ngành công nghiệp công đài tiêu chuẩn cũng như con người.
Nghiên cứu Speech-nhận bắt đầu vào đầu năm 1970 tại các dự án nghiên cứu Cơ quan Quốc phòng cao cấp (DARPA), và các ngành công nghiệp máy tính đã lên thách thức và đã được làm việc kể từ khi hoàn thành mục tiêu của một khả năng của con người giống như để hiểu những gì đang được nói. Bây giờ sự kiện này đã đạt được, chúng ta có thể mong đợi trợ lý kỹ thuật số và các công cụ khác để cải thiện đáng kể khả năng tương tác với chúng tôi trong thời trang tự nhiên hơn. "Điều này sẽ làm cho Cortana mạnh mẽ hơn, làm cho một trợ lý thực sự thông minh có thể," Shum cho biết.
Hệ thống nhận diện giọng nói mới của Microsoft không đạt được sự hoàn hảo trong việc nhận ra chuyện nói, nhưng sau đó một lần nữa, chúng ta cũng vậy. Để khắc phục những sai lầm thông thường trong việc nhận ra ngôn ngữ, hệ thống sử dụng công nghệ mạng thông minh để tận dụng mô hình ngôn ngữ thần kinh có thể làm cho những kết luận tương tự mà con người thực hiện khi điều chỉnh cho lời nói nghe nhầm.
Nhóm nghiên cứu đã sử dụng một vài công cụ hiện có để đạt được các mốc nhận dạng tiếng nói. Ví dụ, tính toán mạng Toolkit, một nguồn hệ thống Microsoft mở cho việc áp dụng học sâu với nhiệm vụ tính toán, đã được sử dụng, cho phép các đơn vị chuyên xử lý đồ họa (GPU) chạy song song để cho phép xử lý nhanh hơn các thuật toán sâu học tập. Công nghệ sử dụng cho các nhiệm vụ khác, chẳng hạn như xử lý hình ảnh, cũng được thừa hưởng.
Các nhà nghiên cứu không được nghỉ ngơi trên vòng nguyệt quế của họ, tuy nhiên. Công việc còn lại để làm cho công tác công nghệ nhận diện giọng nói trong nhiều thiết lập thế giới thực, nơi tiếng ồn nền và bối cảnh có thể làm cho nhận thức đàm thoại nói một nhiệm vụ khó khăn hơn. Như Geoffrey Zweig, giám đốc nhóm nghiên cứu Speech & Dialog của Microsoft, nói: "Các biên giới tiếp theo là chuyển từ công nhận sự hiểu biết."
đang được dịch, vui lòng đợi..