
直到最近,在人類(lèi)語(yǔ)音的機(jī)器翻譯領(lǐng)域內(nèi)的進(jìn)展還遠(yuǎn)遠(yuǎn)沒(méi)有發(fā)展到為主流用戶(hù)帶來(lái)實(shí)質(zhì)性好處的地步,與機(jī)器對(duì)話依然還不太順暢。目前在低功耗音頻技術(shù)方面的開(kāi)發(fā)活動(dòng)具有了改善這種永遠(yuǎn)是瓶頸的人-機(jī)交互關(guān)系的潛力,而這種先前曾阻礙了語(yǔ)音識(shí)別領(lǐng)域內(nèi)真正進(jìn)步的瓶頸將被突破。一條通往人-機(jī)互動(dòng)領(lǐng)域內(nèi)快速創(chuàng)新的道路正在開(kāi)啟,這將沿著我們與機(jī)器互動(dòng)的方向引領(lǐng)諸多有趣的開(kāi)發(fā)活動(dòng),這些機(jī)器將能夠傾聽(tīng)我們,而且越來(lái)越多地聽(tīng)懂我們。
語(yǔ)音也許是人類(lèi)最自然的交流方式,但是將一臺(tái)機(jī)器引入到該過(guò)程則產(chǎn)生了對(duì)新的行為協(xié)議的需求,特別是在語(yǔ)音溝通過(guò)程中沒(méi)有另一方持續(xù)視覺(jué)線索的時(shí)候更為重要。對(duì)于早期的用戶(hù),第一次電話通話是極不順暢的;而且即使在今天,雙向無(wú)線電臺(tái)的斷續(xù)通話方式也要求新用戶(hù)進(jìn)行一些調(diào)整。在這兩種情況下,很快就發(fā)展出來(lái)一些常用的方法來(lái)實(shí)現(xiàn)相當(dāng)自然的溝通方式,主要是因?yàn)橥ㄔ挼牧硪环揭彩侨祟?lèi)。隨著移動(dòng)用戶(hù)面臨新的語(yǔ)音識(shí)別界面,他們將面臨與使用那些很老的通信手段時(shí)所出現(xiàn)的類(lèi)似挑戰(zhàn)。
一個(gè)更近期的例子是,觸摸屏革命展示出了它們?nèi)绻軐?shí)現(xiàn)高品質(zhì)同時(shí)具有可為用戶(hù)體驗(yàn)帶來(lái)附件價(jià)值的功能時(shí),新的、陌生的、棘手的界面如何切入到主流應(yīng)用并且受到歡迎。
因此值得去在一個(gè)比傳統(tǒng)案例更為廣泛的意義上去定義語(yǔ)音控制的“性能”。因而能夠在考慮到下一代瓶頸時(shí),設(shè)計(jì)出更多不會(huì)過(guò)時(shí)的解決方案。
構(gòu)建一種高性能的語(yǔ)音識(shí)別解決方案
過(guò)去一直用非常簡(jiǎn)單的性能指標(biāo)來(lái)評(píng)估語(yǔ)音識(shí)別解決方案。這些指標(biāo)通常被換算為單獨(dú)的“精度”或者“命中率”數(shù)值,從根本上來(lái)表述正確識(shí)別字和詞組的概率。在定義“性能”時(shí),需要一種更廣泛的和深思熟慮的方式,它能夠反映語(yǔ)音界面的長(zhǎng)期發(fā)展?jié)摿?,以便向用?hù)提供像觸屏界面一樣的舒適性和可用性等級(jí)。
翻譯質(zhì)量扮演了一個(gè)關(guān)鍵的角色,從根本上講它是一種人工智能,遠(yuǎn)不止基本的字詞識(shí)別。訪問(wèn)所有設(shè)備功能也使語(yǔ)音識(shí)別成為了觸摸屏的一種切實(shí)可行的替代方案,有趣的是這也使該技術(shù)可用于一個(gè)更大范圍的設(shè)備種類(lèi),包括像可穿戴技術(shù)這樣更小的設(shè)備。低響應(yīng)延遲以及一種自然的、“無(wú)協(xié)議的”的交互方式,以及即使在有噪音環(huán)境中也能很好地運(yùn)行,也改善了體驗(yàn)。這要求精心的系統(tǒng)設(shè)計(jì),以使設(shè)備級(jí)的信號(hào)處理技術(shù)能夠與基于云計(jì)算的智能很好地結(jié)合,以將這些性能增強(qiáng)帶給用戶(hù)。
去除按鍵
語(yǔ)音識(shí)別目前最大的人體工程學(xué)局限性是需要進(jìn)行按鍵或者其它機(jī)械性啟動(dòng),從而限制了它在許多環(huán)境中的可用性。這種機(jī)械觸發(fā)是功耗這一制約因素的終極結(jié)果。為了保持具有競(jìng)爭(zhēng)力的電池壽命數(shù)值,移動(dòng)設(shè)備中待機(jī)功耗的預(yù)算都極低,典型的電池電流值為單位數(shù)毫安。當(dāng)功率預(yù)算這么低的時(shí)候,連續(xù)地運(yùn)行語(yǔ)音識(shí)別(或者至少隨意的語(yǔ)音識(shí)別)是不可行的。
到目前為止,一個(gè)按鍵觸發(fā)器為這個(gè)問(wèn)題提供了一種粗放的解決方案,它通過(guò)在按下按鍵之前禁用語(yǔ)音識(shí)別,使功率消耗平均值降到最低。但是,現(xiàn)今的語(yǔ)音觸發(fā)功能作為一種特性正在被加載到最新的高端音頻中樞(Audio Hubs)上,因?yàn)镺EM廠商希望語(yǔ)音識(shí)別功能能夠更靈活、更易于使用。通過(guò)顯著地降低語(yǔ)音識(shí)別的平均功耗數(shù)值,甚至降到待機(jī)模式預(yù)算范圍內(nèi)這樣的水平,允許主處理器“休眠”。這種功耗降低(通常為一個(gè)數(shù)量級(jí))是如此的顯著,以至于可以完全消除對(duì)按鍵的需要。