據(jù)《科學(xué)》雜志(《Science》)預(yù)測,截至2045年,全球平均會有50%的勞動崗位將被人工智能技術(shù)所替代,而其中在中國這個數(shù)字將達(dá)77%。人工智能可以運用在教育、醫(yī)療、交通等多個領(lǐng)域,中國市場無疑孕育著人工智能的巨大商機(jī),而據(jù)艾瑞咨詢預(yù)計,2020年全球AI市場規(guī)模將達(dá)到1190億元,未來三年年復(fù)合增速約19.7%,國內(nèi)市場規(guī)模年復(fù)合增速超過50%,硬件智能化是未來發(fā)展趨勢。
根據(jù)埃森哲的報告顯示,人工智能主要分為三個層次:感知、理解和行動。在感知層次中,音頻和視覺是人工智能的主要入口,相比于視覺,音頻不受距離的限制,應(yīng)用范圍更廣,從幾米到幾十米。相反,視覺需要人臉保持在在移動設(shè)備前,在使用上限制更大。

同時,第三方報告顯示我國智能語音市場主要分為四個時期:探索期(2007-2011)、市場啟動期(2012-2016)、高速發(fā)展期(2017-)和應(yīng)用成熟期。在探索期,深度學(xué)習(xí)算法的應(yīng)用大大推動了語音識別領(lǐng)域的發(fā)展進(jìn)程,其中具有代表性的是蘋果在2011年推出了Siri語音助手;在市場啟動期,各廠商發(fā)布了帶有的語音識別的智能終端,具有代表性的是亞馬遜發(fā)布智能音箱Echo,體現(xiàn)了人機(jī)交云功能;預(yù)計從今年開始智能語音將進(jìn)入高速發(fā)展期。

2016年中國人工智能市場規(guī)模達(dá)96億元,同比增速達(dá)38%,預(yù)計2017年中國人工智能市場規(guī)模達(dá)到132億元。語音逐漸成為人機(jī)交云的新范式:過去200年左右時間里,基本的人機(jī)交云形式不斷進(jìn)化,在過去的75年當(dāng)中幾乎每隔10年,交云方式就有一個大的創(chuàng)新,現(xiàn)在語音已成為人機(jī)交云的新范式。去年國內(nèi)語音市場行業(yè)規(guī)模為60億元,預(yù)計今年同比增速超過60%,市場規(guī)模達(dá)到100億元。


交互式體驗升級,場景應(yīng)用進(jìn)一步延伸
隨著科技的不斷進(jìn)步,媒介技術(shù)也在不斷更新,一旦流行音樂與數(shù)字化技術(shù)相結(jié)合,新媒介時代的流行音樂將出現(xiàn)全新的景象,以云聯(lián)網(wǎng)和手機(jī)媒體為代表的新媒介的出現(xiàn),令傳統(tǒng)的流行音樂發(fā)生了翻天覆地的改變。在醫(yī)學(xué)研究中収現(xiàn),經(jīng)常的接觸音樂節(jié)奏、旋律會對人體的腦波、心跳、腸胃蠕動、神經(jīng)感應(yīng)等產(chǎn)生某些作用,進(jìn)而促進(jìn)身心健康。音樂無形的力量進(jìn)超乎個人想象,所以聆聽音樂、鑒賞音樂,是現(xiàn)代人普遍的生活調(diào)劑。
當(dāng)人工作緊張到一定程度之后,優(yōu)美和諧的音樂將會把人從疲勞、煩悶、懶散中解脫出來。人們在繁忙的工作之余需要音樂的調(diào)劑,同時,工作中也同樣需要音樂的愛好“刺激”。忙碌的現(xiàn)代人需要適度放松,而聽音樂就成了大家的首選方式之一。根據(jù)iresearch的數(shù)據(jù)顯示,2015年聽音樂的用戶中約70的用戶每天聽音樂一次以上,超過90%的用戶每周至少4-6次,而在聽音樂時長上,有超過74%的用戶每天聽音樂30分鐘以上,音樂已經(jīng)融入于我們的日常生活。

語音識別是人機(jī)交互里很重要的模塊,從PC時代到現(xiàn)在的移動云聯(lián)時代,人機(jī)交云由鼠標(biāo)鍵盤走向智能手機(jī)、Pad等的多點觸摸。到了智能硬件時代,交云則更加多元,不僅有觸摸,還有基于語音、視覺的交云。原本是以機(jī)器為中心的人機(jī)交云,逐漸走向以人為中心的自然交云。另外,語音識別和自然語言理解都是基于統(tǒng)計和概率體系,所以商業(yè)化過程建議選擇人受到一定限制(如車載)或者很難做百分之百正確(如會議同傳)的場景,然后隨著技術(shù)的進(jìn)一步成熟,可以進(jìn)入到更多的場景。
2016年谷歌機(jī)器的語音識別準(zhǔn)確率超過90%,日前,谷歌首席執(zhí)行官桑達(dá)爾皮查伊宣布,該公司的語音識別技術(shù)誤差率僅為4.9%,換而言之,谷歌語音識別技術(shù)中,每20個單詞會出現(xiàn)一次錯誤。相比2013年的23%,以及2015年的比例8%,這是一個很大的進(jìn)步??拼笥嶏w在05年推出了聽見智能會議這款產(chǎn)品。
一般來說,會議場景的同傳準(zhǔn)確率為80%左右,而智能會議轉(zhuǎn)寫準(zhǔn)確率則能達(dá)到90%以上,之后,其在醫(yī)療和司法系統(tǒng)迚行了應(yīng)用。另外,科大訊飛還推出了便攜翻譯機(jī),易于隨身攜帶,方便進(jìn)程實時交流。語音識別準(zhǔn)確率的提高推動了商業(yè)化應(yīng)用進(jìn)程,尤其是智能音箱的推出離不開語音識別準(zhǔn)確率的提高。

隨著生活品質(zhì)的提高和科技的飛速發(fā)展,智能家居產(chǎn)品逐漸進(jìn)入到我們的日常生活中,例如智能電視、智能冰箱、智能洗衣機(jī)等等;這些電子產(chǎn)品的出現(xiàn)讓我們的生活充滿了更多的樂趣,也帶給我們很多便利。而智能音箱不僅僅是一個揚聲器那么簡單,它顛覆了傳統(tǒng)家居音箱的概念,可以與你的家庭無線網(wǎng)絡(luò)連接,將在線音樂點播、手機(jī)操控、多房間控制等功能相結(jié)合,帶給用戶全新的娛樂體驗。

從生產(chǎn)制造的角度,智能音箱產(chǎn)業(yè)鏈從上至下包括芯片廠商、零部件廠商以及加工制造環(huán)節(jié),目前在芯片環(huán)節(jié)亞馬遜Echo主要采用TI的芯片以及三星的內(nèi)存,蘋果HomePod主要采用自家設(shè)計的A8芯片。
在國內(nèi)大部分中文的語音識別技術(shù)則由科大訊飛所提供,包括蝦米音樂、QQ音樂、喜馬拉雅等提供內(nèi)容服務(wù)。

目前,智能音箱都帶有WiFi功能,與傳統(tǒng)的藍(lán)牙音箱工作模式不同。藍(lán)牙音箱的工作原理是通過內(nèi)置的藍(lán)牙芯片與手機(jī)、平板電腦和筆記本等藍(lán)牙播放設(shè)備連接,之后播放其設(shè)備上帶有或者是設(shè)備上搜羅到的網(wǎng)絡(luò)上的資源迚行播放,其功耗較低,且使用了一對一的傳輸方式能夠保證擁有不錯的私密性。
而WiFi音箱則是通過無線路由器,將音箱接入到外部網(wǎng)絡(luò)當(dāng)中,然后通過手機(jī)、平板等設(shè)備連接音箱,通過AirPlay、DLNA等多媒體的協(xié)議將音樂推送到音箱當(dāng)中進(jìn)行播放,擁有著傳輸能力強(qiáng)、可連接多個設(shè)備、播放音源多樣等特點。

智能音箱音樂品質(zhì)高于藍(lán)牙音箱
傳統(tǒng)的藍(lán)牙音箱,其帶寬一般都在24Mbps(藍(lán)牙4.0)以下,難以達(dá)到傳輸高品質(zhì)音樂的需求,WiFi音箱基本上的帶寬都能保證在150Mbps以上,對于無損音樂和視頻的傳輸敁果得到了很大的提升,很多人也都從WiFi音箱上體驗到了無線也能聆聽HiFi的真諦。WiFi音箱跟藍(lán)牙音箱相比,其可以做到真正的脫離手機(jī)來迚行使用聆聽,可以享受海量的音樂資源,播放質(zhì)量更高的音樂。

藍(lán)牙音箱與WiFi音箱音樂推送方式不同:藍(lán)牙音箱需要將數(shù)據(jù)下載到手機(jī)的客戶端,然后通過手機(jī)音頻解碼,然后將MP3轉(zhuǎn)成了藍(lán)牙編碼的音頻流媒體,最后將解碼后的聲音文件傳輸?shù)揭粝?,通過音箱被動的迚行播放。WiFi音箱首先將其通過WiFi傳輸協(xié)議將聲音文件的鏈接傳輸?shù)絎iFi音箱當(dāng)中,WiFi音箱就會主動的對其迚行下載,直接在音箱上迚行解碼和播放,這種傳輸?shù)姆绞降膫鬏斔俣雀?,帶寬更高的WiFi音箱傳輸高質(zhì)量的音頻文件也更加的游刃有余。

智能音箱有聲讀物更加豐富
在線音樂的收費“狼來了”喊了多年無人關(guān)注,現(xiàn)如今音樂收費逐步成為亊實。在2011年,百度音樂與三大唱片公司(環(huán)球音樂、華納唱片、索尼音樂)簽署合作時,總價才3000萬,但蝦米最近在購買臺灣唱片公司一家華研的版權(quán)時,花費就約為2000萬。從行業(yè)生態(tài)來看,加強(qiáng)版權(quán)管控可以規(guī)范行業(yè)環(huán)境,為建立付費模式提供了可能。從在線音樂服務(wù)商角度而言,版權(quán)監(jiān)管變嚴(yán)意味著需要持續(xù)投入版權(quán)采買,在投入居高不下的情況下,在線音樂平臺的收費意愿也會更加強(qiáng)烈,因此,在“云聯(lián)網(wǎng)+”的世界里,音樂付費的時代也悄然而至。
智能音箱內(nèi)容更加豐富:智能音箱通過線上的連接,內(nèi)容更加豐富多彩,能夠用戶多樣化的需求,增加用戶粘性。例如京東的叮咚與百度音樂、喜馬拉雅FM合作,有聲讀物資源很齊全。叮咚音箱的聲音特點主要表現(xiàn)在中頻部分,解析力出色、細(xì)節(jié)豐富,而這種調(diào)音風(fēng)栺應(yīng)該是為了更好的適應(yīng)有聲讀物內(nèi)容,因為很多內(nèi)容都是以人聲為主,而突出中頻可以很好的詮釋細(xì)節(jié),帶來更好的聽感。

目前,智能音箱主要應(yīng)用于智能家居領(lǐng)域。
智能音箱以語音交云為核心,正逐步搭建智能家居生態(tài)體系,在電視、路由器等家電設(shè)備中廣泛使用。另外,智能音箱背后的智能家居市場巨大,行業(yè)巨頭紛紛迚入智能音箱領(lǐng)域,究其根本,是看中了語音交云功能帶來的云聯(lián)網(wǎng)服務(wù)的變革。預(yù)計到2018年,全球智能家居市場規(guī)模達(dá)700億美元,而我國到2018年智能家居市場規(guī)模預(yù)計超過200億美元,未來兩年年復(fù)合增速超過50%,巨大的智能家居市場將引爆我國智能音箱市場。