Các cơ sở người dùng ngày càng tăng của tìm kiếm bằng giọng nói cùng với tính toán của Google
cơ sở hạ tầng cung cấp một cơ hội tuyệt vời để mở rộng mô hình âm thanh của chúng tôi. Các
thách thức liên quan đến nhau như làm thế nào và ở đâu để thêm các thông số âm thanh,
những chức năng quan để tối ưu hóa quá trình đào tạo, làm thế nào để tìm thấy những tối ưu
kích thước mô hình âm thanh cho một số tiền nhất định của dữ liệu, làm thế nào đến trường một thời gian thực
với các mô hình dịch vụ âm thanh ngày càng lớn, và làm thế nào để có được nhãn đáng tin cậy
cho đó đã làm tăng số lượng dữ liệu. Những thí nghiệm trước trong những
hướng gợi ý rằng kích thước mô hình tối ưu được liên kết với các mục tiêu
chức năng: các mô hình tốt nhất MMI có thể đến từ các mô hình ML được nhỏ
hơn so với các mô hình tốt nhất ML; mà MMI chức năng quan có thể mở rộng tốt với
tăng dữ liệu không được giám sát; rằng các kỹ thuật phân cụm loa có thể hiển thị
lời hứa cho khai thác một lượng ngày càng tăng của dữ liệu; và rằng sự kết hợp của
giải mã đa lõi, tối ưu hóa các lựa chọn Gaussian trong ghi bàn acoustic,
và đa-pass công nhận cung cấp đường dẫn thích hợp để tăng quy mô của
mô hình âm thanh trong hệ thống thời gian thực
đang được dịch, vui lòng đợi..