當(dāng)微軟和Google為誰(shuí)的人工智能聊天機(jī)器人更好而使出渾身解數(shù)時(shí),我們不難發(fā)現(xiàn)這并不是機(jī)器學(xué)習(xí)和語(yǔ)言模型的唯一用途。除了傳聞中計(jì)劃在今年的年度Google I/O活動(dòng)中展示20多種由人工智能驅(qū)動(dòng)的產(chǎn)品外,Google正在朝著建立一個(gè)支持1000種不同語(yǔ)言的人工智能語(yǔ)言模型的目標(biāo)邁進(jìn)。
在周一發(fā)布的更新中,Google分享了有關(guān)通用語(yǔ)音模型(USM)的更多信息,Google稱這一系統(tǒng)是實(shí)現(xiàn)其目標(biāo)的"關(guān)鍵第一步"。

去年11月,該公司宣布其計(jì)劃創(chuàng)建一個(gè)支持全球1000種最常用語(yǔ)言的語(yǔ)言模型,同時(shí)還披露了其USM模型。Google將USM描述為"一個(gè)最先進(jìn)的語(yǔ)音模型系列",它有20億個(gè)參數(shù),在1200萬(wàn)小時(shí)的語(yǔ)音和超過300種語(yǔ)言的280億個(gè)句子中進(jìn)行訓(xùn)練。
YouTube已經(jīng)使用USM來(lái)生成封閉式字幕,它還支持自動(dòng)語(yǔ)音識(shí)別(ASR),這可以自動(dòng)檢測(cè)和翻譯語(yǔ)言,包括英語(yǔ)、中文普通話、阿姆哈拉語(yǔ)、宿務(wù)語(yǔ)、阿薩姆語(yǔ)等等。
現(xiàn)在,Google USM支持超過100種語(yǔ)言,并將作為"基礎(chǔ)"來(lái)建立一個(gè)更加廣泛的系統(tǒng)。與此同時(shí),meta公司正在開發(fā)一個(gè)類似的人工智能翻譯工具,但目前仍處于早期階段。
您可以在Google發(fā)布的研究論文中閱讀更多關(guān)于USM和它如何工作的信息:
https://arxiv.org/abs/2303.01037
該技術(shù)的一個(gè)目標(biāo)可能是在增強(qiáng)現(xiàn)實(shí)的眼鏡內(nèi),就像Google去年在I/O活動(dòng)中展示的概念一樣,能夠檢測(cè)并提供實(shí)時(shí)翻譯,不過,這項(xiàng)技術(shù)似乎還有點(diǎn)遙遠(yuǎn),Google在I/O大會(huì)期間對(duì)阿拉伯語(yǔ)的錯(cuò)誤表述證明了它是多么容易出錯(cuò)。