国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: 佳士科技  irobot  工業(yè)機器人  機器人  ABB  機器人產(chǎn)業(yè)聯(lián)盟  發(fā)那科  庫卡  碼垛機器人  機械手 

人工智能干翻棋王,干不過人工轉(zhuǎn)錄?

   日期:2016-04-11     來源:創(chuàng)業(yè)邦     評論:0    
標(biāo)簽:

 
   在當(dāng)今科技公司時不時就拿出新式日常神奇產(chǎn)品的時代,一個似乎一直得不到解決問題,就是長段的轉(zhuǎn)錄。當(dāng)然,對文檔的語音識別問題已經(jīng)被Nuance公司的聲龍(Dragon)軟件攻克了。我們的手機和智能家居設(shè)備也能夠聽懂復(fù)雜的指令——真得感謝自主神經(jīng)網(wǎng)絡(luò)之類的21世紀(jì)奇跡啊!然而,人類實際交談中大段語塊的準(zhǔn)確翻譯問題,即使是今天最先進的軟件也無力解決。
 
  若能解決,必然會開拓口述歷史的新篇章,讓快速閱讀者大量攝取播客內(nèi)容變得更容易,令全世界的記者手握改變世界的恩賜便捷,解放用于甜蜜生活的寶貴時間。YouTube音頻視頻的文本化搜索將不再是夢,研究人員的夢想將成為現(xiàn)實?;蛟S,對另一些人來說,也會是反烏托邦時代的開端,將人類拖入新形式的文字全景監(jiān)獄。(其實,隨著美泰公司能與小朋友對話的語音識別“你好芭比( Hello Barbie)”娃娃的誕生,反烏托邦世界或許已經(jīng)出現(xiàn)了。)研究人員們說,實用性轉(zhuǎn)錄只是個時間問題,雖然這個時間到底多長尚未可知……
 
  人類實際交談中大段語塊的準(zhǔn)確轉(zhuǎn)錄問題,即使是今天最先進的軟件也無力解決。
 
  加州大學(xué)伯克利分校國際計算機研究所音頻和多媒體實驗室主任杰拉德·弗里德蘭(Gerald Friedland)說:“我們以前常笑言:根據(jù)詢問對象的不同,語音識別問題要么已經(jīng)解決,要么根本是無解問題。而真相是:在無解與已解兩個極端之間搖曳。”關(guān)于語者無關(guān)的自然人類語言轉(zhuǎn)錄的未來,人們給出答案的不同,恰恰表明教授們的笑談?wù)寐淙?ldquo;因為真實所以好笑”的范疇。
 
  黃學(xué)東,微軟高級科學(xué)家,主持微軟牛津計劃(Project Oxford),為新興語音識別創(chuàng)業(yè)者提供公開API。
 
  他說道:“如果人工轉(zhuǎn)錄電話里的對話,錯誤率在4%左右。如果將IBM、谷歌、微軟連同其他最好的語音識別系統(tǒng)結(jié)合起來,錯誤率也能達到驚人的8%左右。”他還估測現(xiàn)有商用轉(zhuǎn)錄系統(tǒng)的錯誤率可能接近12%,并承認(rèn)“或許不如人類,但已經(jīng)是語音識別領(lǐng)域能做到的最好了,不過是人工的兩倍錯誤率而已。”
 
  但是,黃學(xué)東很快補充道,這一錯誤率只有跟5年前相比才是令人驚異的表現(xiàn)。而談到這里,他明顯開始激動起來了。
 
  黃學(xué)東從事語音識別已有30余年,自80年代早期即在清華大學(xué)開啟了他的語音識別研究之路,然后加入卡耐基·梅隆大學(xué)羅杰·瑞迪(Raj Reddy)領(lǐng)導(dǎo)的開拓性語音識別實驗室,又于1995年入主語音識別技術(shù)研究團隊。“我們一直有一個能用自然語言與計算機交談的夢想。”他說。他與瑞迪和聲龍系統(tǒng)的吉姆·貝克(Jim Baker)合著,在《計算機協(xié)會通訊》2014年1月刊上發(fā)表了一篇題為《歷史視角看語音識別》的論文。
 
  “10年前,語音識別的錯誤率高達80%!如今,我們將錯誤率從80%之高降到了僅有8%!如果我們在未來兩三年內(nèi)一直保持這種態(tài)勢,奇跡一定會發(fā)生。
 
  預(yù)測一直是件吃力不討好的難事,但基于歷史數(shù)據(jù),追蹤領(lǐng)域內(nèi)記錄,群策群力,未來兩到三年內(nèi),我認(rèn)為我們有可能做到用普通手機達到與人工水平相當(dāng)?shù)恼Z音轉(zhuǎn)錄能力。”
 
  卡爾·凱斯(Carl Case),百度機器學(xué)習(xí)團隊研究科學(xué)家,專攻百度自有的語音識別系統(tǒng)——深度語音(Deep Speech)。
 
  凱斯說:“Deep Speech在英語和漢語的現(xiàn)代語音系統(tǒng)中取得了非常好的進展。但我仍然認(rèn)為‘特定環(huán)境特定人員適用’和‘任何環(huán)境任何人員可用’之間還有許多工作要做。比如說,在相對嘈雜的電話交流環(huán)境中也能毫無障礙地理解對方。”凱斯和他的團隊已經(jīng)在高速奔馳的車中大開音樂的環(huán)境下,以及其他惡劣條件下進行了測試。與微軟的同行做法一致,他們也發(fā)布了自己的公開API,部分掛靠在科學(xué)的名義下,部分則是因為更多用戶使用,系統(tǒng)會變得更好。
 
  言語經(jīng)濟
 
  對自由職業(yè)者,以及其他想要轉(zhuǎn)錄而又支付不起每分鐘1美元的傳統(tǒng)轉(zhuǎn)錄員人工費的人士來說,解決方案是存在的。然而,現(xiàn)有解決方案都不完美。程序員安迪·拜奧(《連線》雜志兼職撰稿人)曾寫了個腳本將采訪音頻分割成1分鐘一段的小塊,并將這些音頻塊上傳到亞馬遜的土耳其機器人(Mechanical Turk)任務(wù)外包平臺,把音頻轉(zhuǎn)錄任務(wù)分給幾個人去做。這種做法能省錢,但還是有大量的準(zhǔn)備和善后工作要做。(Casting Words似乎也以類似的技術(shù)搭建了轉(zhuǎn)錄商業(yè)模型,可惜每分鐘費用又回到了1美元左右。)在更容易操作的眾包界面方面,還有分享經(jīng)濟時代的產(chǎn)物TranscribeMe網(wǎng)站,轉(zhuǎn)錄工作由一小支響應(yīng)公司“將休閑時間變現(xiàn)”號召的手工轉(zhuǎn)錄員承擔(dān)。
 
  其實,谷歌文檔(Google Docs)就內(nèi)置有免費的語音轉(zhuǎn)錄工具,實驗性質(zhì)的。在計算機上播放錄音,系統(tǒng)就會盡最大努力在谷歌文檔中顯示合適的文本。測試了5段Skype錄制的電話采訪后,只有一份說得非常慢且清晰的音頻能被認(rèn)為是轉(zhuǎn)錄成了可識別的文本,錯誤率勉強在15%左右。那些想要轉(zhuǎn)錄播客內(nèi)容的人,估計只有祈禱好運了。
 
  在轉(zhuǎn)錄技術(shù)無法處理的多聲音或背景音混亂的情況下,像Nuance的聲龍自然說(Dragon Naturally Speaking:同樣源自卡耐基·梅隆大學(xué)瑞迪的實驗室)這樣的可靠軟件便顯得在經(jīng)過訓(xùn)練的單聲音方面尤其出眾了。戴維·拜倫(David Byron),《語音技術(shù)》雜志總編。他推薦了一種稱為“鸚鵡學(xué)舌”的技術(shù):實時聽取錄音并對著話筒復(fù)述一遍,供軟件轉(zhuǎn)錄。這能省去一些敲擊錄入,但遠達不到即時的效果,而且依然需要采訪者重溫他們最笨拙的采訪片段。
 
  言語障礙
 
  有個人十分懷疑長段轉(zhuǎn)錄技術(shù)能馬上實現(xiàn)。他就是羅杰·齊默曼(Roger Zimmerman),當(dāng)前唯——家提供商用自動長段轉(zhuǎn)錄應(yīng)用的公司——3Play Media的研究和開發(fā)主管。通過多家供應(yīng)商(保密)提供的API組合,3Play的原始轉(zhuǎn)錄正確率平均在80%左右——有時候高些,有時候低些,而且在發(fā)送給客戶前還會啟用人工轉(zhuǎn)錄員進行校對。“語音識別技術(shù)遠達不到人類的水準(zhǔn)。”齊默曼說,“而且,很多很多年都趕不上,我猜,至少幾十年內(nèi)是追不上人類的。”
 
  齊默曼從上世紀(jì)80年代就職麻省理工學(xué)院(MIT)分支機構(gòu)語音處理公司(Voice Processing Corporation)時起,就一直從事語音技術(shù)的研究。他說:“人類才不會像念課文一樣說話。我們會猶豫,會修正,會重復(fù),會達到根本不按自然語言規(guī)律來的程度,語言模型根本不適用在人類口語上。這是當(dāng)前建立在人工智能基礎(chǔ)之上的系統(tǒng)中較弱的組件。已有的聲學(xué)建模不過是面向信號處理的,且是精心規(guī)劃的,這些新的深度神經(jīng)網(wǎng)絡(luò),在解碼聲學(xué)信號時知道自己在做什么,但它們并不真正理解語言模型需要做什么才能模擬人類語言過程。它們在用數(shù)值計算來處理一個至今沒能真正解決的更高水準(zhǔn)的人工智能難題。”
 
  不過,3Play顧問,MIT口語系統(tǒng)小組負(fù)責(zé)人,高級研究科學(xué)家吉姆·格拉斯(Jim Glass)認(rèn)為:“語音識別也沒有那么那么難。事實上,該技術(shù)早都在那兒了。這個問題的正確考慮方式,應(yīng)該是問問你自己能接受多高的錯誤率。因此,如果你能快速瀏覽一遍轉(zhuǎn)錄稿,再跳回到音頻進行驗證,那你可能會愿意忍受一定量的錯誤。該技術(shù)今天已經(jīng)可以做到這種程度了。所需的,不過是某些人下決心讓這項技術(shù)服務(wù)于人類而已。”
 
  “根據(jù)經(jīng)驗,語音技術(shù)的部分問題,在于公司企業(yè)有沒有找到用它賺錢的方式。如今倒是有工具包可供愿意嘗試這一新技術(shù)的開發(fā)者使用。但我不知道公司企業(yè)到底有沒有想出賺錢良方了。”格拉斯說。
 
  進一步討論
 
  像谷歌語音(Google Voice)這樣的商用轉(zhuǎn)錄服務(wù)中還應(yīng)加入的一個組件,就是被稱為“兩方分類”的語者無關(guān)系統(tǒng),能夠區(qū)分誰正在講話,講話內(nèi)容又是什么。一個人自說自話是一碼事,兩人互動交談就是完全不同的另一碼事了。不過,至少在科學(xué)研究范疇,這一問題部分已解決。都有一個專門的領(lǐng)域來研究它了——“富轉(zhuǎn)錄”。2012年,美國電氣和電子工程師學(xué)會(IEEE)在其期刊《音頻、語音和語言處理》(Transactions on Audio, Speech, and Language Processing)中,專門拿出一期登載“富轉(zhuǎn)錄新前沿”論文。
 
  “根據(jù)經(jīng)驗,語音技術(shù)的部分問題,在于公司企業(yè)有沒有找到用它賺錢的方式。我不知道他們到底找到?jīng)]有。”——吉姆·格拉斯,MIT高級研究科學(xué)家
 
  參與了美國國家標(biāo)準(zhǔn)與技術(shù)研究所(NIST)測試的非營利性組織ICSI有個分類項目,其負(fù)責(zé)人杰拉德·弗里德蘭說:“在相對清晰的電話線上,98%的時間里語音識別技術(shù)能識別出說話者的語音。通過進行會議記錄器項目(Meeting Recorder Project)來測試組記錄情況的ICSI證實:一旦麥克風(fēng)不再是手機提供的那種近距離類型,語音識別錯誤率就會激增到15%到100%之間。弗里德蘭還指出,有待解決的問題包括,當(dāng)說話人不再使用新聞播報似的相對清晰的語言,進入到當(dāng)今很多研究人員都會用的大段長句模式,語音識別系統(tǒng)該如何保證錯誤率不飆升。
 
  他說:“如果你把手機放桌上,試圖記錄下所有說過的話并轉(zhuǎn)錄成文字,你將遭遇到所有這些問題:新詞匯,雞尾酒會嘈雜問題,常規(guī)噪音,語音重疊,含糊不清等等。有咳嗽,有大笑,有叫喊,有竊竊私語。太多了。”在分類研究中有兩種類型的話音頻譜常會引發(fā)混亂導(dǎo)致測試失敗——兒童和老人的。
 
  “想想所有這些景象綜合在一起是個什么慘況。我認(rèn)為這一切表明了,像人類一樣完美的語音識別器在相當(dāng)長一段時間內(nèi)是不會出現(xiàn)的。我們這一代人是別想看到了。”
 
  不過,這番話也不應(yīng)被理解為我們就沒有生活在語音技術(shù)的黃金時代。本月,弗里德蘭幫助啟動了Kickstarter籌資的語音識別器/語音合成器MOVI,供開源電子原型平臺Arduino在未接入云的情況下使用。“不用聯(lián)網(wǎng),不用接入云就能進行語音識別。能搞定幾百句話,具適應(yīng)能力。”弗里德蘭由此表達了對索尼、蘋果、谷歌、微軟,以及其他所有得把語音發(fā)送到云端才能處理的公司的嘲笑。“所有這一切不過是利用了人們覺得語音識別難到不得不在云端才能處理的錯覺。如果你讓說話者對著計算機講,那我們就可以認(rèn)為這個問題已經(jīng)解決了。”
 
  目前為止,大多數(shù)轉(zhuǎn)錄初創(chuàng)公司似乎主要都是從授權(quán)谷歌的API開始的。但該領(lǐng)域和市場對所有層級的創(chuàng)新公司都是開放的,伴隨著當(dāng)一個項目成功時會引起的奇奇怪怪的未知社會變革。
 
 
更多>相關(guān)資訊
0相關(guān)評論

推薦圖文
推薦資訊
點擊排行