
解決語音識別問題
近年來,語音識別的表現(xiàn)和應(yīng)用出現(xiàn)了巨大的飛躍。我們離完全解決這個問題還有多遠(yuǎn)?答案也許五年、也許十年,但仍然有一些挑戰(zhàn)性的問題需要時間來解決。
第一個問題是對噪音的敏感性問題。一個語音識別系統(tǒng)在非常接近麥克風(fēng)而且不嘈雜的環(huán)境中運行得很好——然而,如果說話的聲音比較遠(yuǎn)或者環(huán)境很嘈雜能迅速降低系統(tǒng)的效能。
第二個必須解決的問題是語言擴(kuò)展:世界上大約有7000種語言,絕大多數(shù)語音識別系統(tǒng)能夠支持的語言數(shù)量大約是八十種。擴(kuò)展系統(tǒng)帶來了巨大的挑戰(zhàn)。
此外,我們?nèi)鄙僭S多語言的數(shù)據(jù),而且匱乏數(shù)據(jù)資源則難以創(chuàng)建語音識別系統(tǒng)。
結(jié)論
深度學(xué)習(xí)在語音識別和對話式AI領(lǐng)域刻下了深深的印記。而鑒于該技術(shù)最近獲得的突破,我們真的正處于一場革命的邊緣。
而最大的問題在于,我們是否準(zhǔn)備贏得語音識別領(lǐng)域的技術(shù)挑戰(zhàn),并像其他商品化技術(shù)一樣開始運用它呢?或者說,是否還有另一個新的解決方案正等待著我們?nèi)グl(fā)現(xiàn)?畢竟,語音識別的最新進(jìn)展只是未來科技藍(lán)圖的一小塊:語言理解本身就是一個復(fù)雜而且或許更加強(qiáng)大的一個領(lǐng)域。