語音觸發(fā)器架構(gòu)的選擇
一次語音觸發(fā)是一個簡短的關(guān)鍵字或者詞(例如“你好!手機”),它能夠使設備被喚醒并且響應后面輸入的語音。圖1所示即為這種半自主的低功耗的“永遠工作”的處理域,它為這種語音觸發(fā)提供了一個平臺。
音頻中樞為語音觸發(fā)功能提供了一個自然的中心,它帶有通往所有內(nèi)部功能和耳機麥克風端口的接口,并且在待機模式下通常也在運行,這是因為需要處理像附件接口監(jiān)控其它原因。這個降低了系統(tǒng)中諸如時鐘發(fā)生器和電壓參考等常用基礎(chǔ)功能的重復率,降低了靜態(tài)功耗。音頻中樞里針對語音喚醒的硬件優(yōu)化使信號處理周期針對不同環(huán)境的噪聲情況將被保持在絕對的最低值,將平均電池電流最小化。
可相互替代的架構(gòu)分成兩類:分離式解決方案和基于系統(tǒng)級芯片(SoC)語音的觸發(fā)。其功率消耗情況和用戶交互方式在很大程度上依賴于對這些架構(gòu)的選擇。軟件架構(gòu),尤其是管理應用場景轉(zhuǎn)換和串行端口配置的軟件,也在確定交流方式中扮演著一個重要的角色。
基于系統(tǒng)級芯片(SoC)的語音觸發(fā)器往往因為主要的中央處理單元持續(xù)活躍而引起的非常高的靜態(tài)功耗開銷。這些解決方案的電池電流消耗通常比那些基于音頻中樞的解決方案高出一個數(shù)量級。
分離式解決方案通常使用來自主音頻通道的不同的硬件接口。這有時可以導致音頻不持續(xù),原因在于應用場景轉(zhuǎn)換管理和噪音抑制的啟用/禁用等在不同的集成電路間,因為延遲和信號格式不同等因素而變得復雜。這些不連續(xù)有時會引起通話被中斷,尤其是在轉(zhuǎn)換到工作模式運行發(fā)生時,從而導致了對可聽見提示的需要并限制了交流方式。在一些情況,因為連接到有限數(shù)量的麥克風也能限制其使用性(例如耳機麥克風的操作)。
確保更好的用戶體驗
由于所有技術(shù)創(chuàng)新都是從根本上改變用戶與消費電子設備交互的方式,衡量成功的真正標準是用戶對他們所期望的改變的回應。參考觸摸屏案例,新的語音控制技術(shù)的最終目標是它們應該成為下一代移動硬件可接受的和所預期的一項功能。我們將可能非??炀蛯W會如何與新一代能夠響應語音的機器進行交互,其方式與我們在觸摸屏中開發(fā)出來的直觀熟悉性大致相同,直到像觸摸功能已經(jīng)成為進入市場的新設備的一個標準功能這樣的程度。
盡管如此,不同于較早的在遠端也是人類的語音通信技術(shù),仍然不確定的是用戶在熟悉技術(shù)的行為特性后,是否將受益于與其設備進行了有用的或有趣的溝通。這在很大程度上取決于該技術(shù)的性能,但是今天用來衡量語音識別性能的標準仍然很粗放,并且不足以用來描述未來代系語音識別系統(tǒng)的有效性。考慮到更高級別的機器智能化、與系統(tǒng)其余部分的交互,以及與云計算的交互,還需要一種更廣泛的方式。一種不會限制或者延遲下一代改善的音頻架構(gòu),能夠使這些性能跨越更加迅速地發(fā)生,很大程度上將不受硬件和低級別固件的限制。現(xiàn)在已經(jīng)可以使用這種技術(shù)去構(gòu)建移動設備。
低功耗音頻中樞待機模式音頻處理能力已經(jīng)突破了語音識別可用性中一些最關(guān)鍵的瓶頸。雖然去除按鍵是一個重要的里程碑,但這只是可用于今天移動平臺設計的許多語音識別提升中的一項。但在集成階段選擇了合適的架構(gòu),就可以支持一種完全自然的溝通風格,它極大地改變我們在未來幾年使用移動設備的方式。