国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: 佳士科技  irobot  工業(yè)機器人  機器人  ABB  機器人產(chǎn)業(yè)聯(lián)盟  發(fā)那科  庫卡  碼垛機器人  機械手 

讓 Siri 的聲音更像真人,蘋果是如何做到的?

   日期:2017-09-11     來源:36氪    作者:dc136     評論:0    
   虛擬助手最先是由Siri帶火的,但現(xiàn)在的蘋果已經(jīng)被Amazon和Google拖到后面。不過以追求完美為目標的蘋果自然不會就這么讓Siri沉寂下去,過去幾年的時間了,蘋果的團隊一直在攻關(guān)一個項目,那就是讓Siri說話更像人。團隊負責人認為,現(xiàn)在Siri已經(jīng)取得了巨大飛躍,在不久后的iOS 11中,用戶就能感受到它的風采了。Siri說話是怎么變得更像人的呢?《連線》雜志的這篇文章為我們揭秘。
讓 Siri 的聲音更像真人,蘋果是如何做到的?
  Alex Acero第一次看《她》的時候是以一個正常人的方式去觀看的。但第二次的時候,他根本就沒有看電影。Acero是蘋果負責Siri背后技術(shù)的主管,這次他就坐在那里,緊閉雙眼,傾聽Scarlett Johansson(斯嘉麗·約翰遜)是如何給她的人工智能角色Samantha配音的。他注意了她是如何跟Joaquin Phoenix扮演的Theodore Twombly交談的,以及Twombly是如何回話的。Acero試圖弄清楚Samantha是怎么讓一個從來都沒見過她的人愛上她的。
 
  為什么聲音會工作得那么好?當我問到Acero這方面他了解到什么東西時,他笑了,因為答案太明顯了。他說:“因為自然!因為那不是機器人!”這對于Acero來說幾乎都算不上是啟示。這基本上只是確認了他的團隊過去幾年做的項目是對的:這個項目的目標就是讓Siri聽起來更像人。
 
  今秋,當全球各地安裝iOS 11的iPhone和iPad數(shù)量達到數(shù)百萬的時候,該新軟件就會給Siri換一個新的聲音。它不會引入很多新功能或者把笑話講得更好笑,但是你會注意到其中的不同。Siri現(xiàn)在講話會有更多的停頓,在停頓前先把音節(jié)拉長,說起來有一種抑揚頓挫的感覺。字句聽起來更加流利,并且Siri也會講更多語言了。總之,聽它講和跟它講都感覺更好了。
 
  蘋果用了幾年的時間來重新構(gòu)建Siri背后的技術(shù),將它從一個虛擬助手變成了支撐你手機的一切人工智能的一個包羅萬象的統(tǒng)稱。它已經(jīng)在不懈地擴張到新的國家和語言(盡管犯過不少錯誤,但Siri仍然是目前市面上最通俗的個人助理)。蘋果也從一開始的慢慢地到現(xiàn)在的迅速地,致力于將Siri普及到每一個地方。而且Siri現(xiàn)在已經(jīng)歸蘋果的軟件負責人Craig Federighi掌管,這表明Siri對蘋果的重要性現(xiàn)在已經(jīng)跟iOS相提并論。
 
  這項技術(shù)好到能讓你跟你的虛擬助手墜入愛河還需要一段時間。但Acero和他的團隊認為自己已經(jīng)取得了一次巨大飛躍。他們還堅定地認為,如果自己能讓Siri說話不那么像機器人而更像你認識和信任的某人的話,他們就能把Siri做得很棒,哪怕Siri會有失敗的時候(注:因為人也會犯錯)。而這個在AI和語音技術(shù)尚處早期階段時,可能就是最佳場景了。
 
  Siri長大了
 
  為什么蘋果喜歡控制自己產(chǎn)品的一切?如果你想找個好例子的話,只需看看Siri。自從推出6年后,Siri在這場虛擬助理的競賽中大部分已經(jīng)落后。Amazon的Alexa得到了更多的開發(fā)者支持;Google的Assistant知道更多的東西;這兩個在很多不同公司許多類型的設備上都能找到。
 
  蘋果說這都是自己的錯。Siri剛推出的時候,是另一家公司提供語音識別的后端技術(shù)。那家公司是誰?一切跡象均指向了Nuance,盡管蘋果和Nuance均從未承認過有合作關(guān)系。不管這家公司是誰,蘋果都樂于把Siri的早期問題歸咎到它的身上。蘋果負責產(chǎn)品營銷的CP Greg Joswiak說:“這就像是在賽跑,有人在拖我們后腿。” Joswiak說蘋果已經(jīng)給Siri制訂了一個大計劃:“做你可以在手機上對話的助理,可以用更容易的方式幫你做這些事,”只是技術(shù)還不夠好。他說:“你懂的,輸入不行的話,輸出也不行。”
 
  幾年前,Acero領(lǐng)導的這支蘋果團隊控制著Siri的后端以及體驗改進?,F(xiàn)在Siri的基礎已經(jīng)變成深度學習和AI,因此得到了巨大改進。Siri的裸語音識別可以與任何競爭對手匹敵,可正確識別95%的用戶講話。這款AI工作于兩個不同的關(guān)鍵模式:語音轉(zhuǎn)文本,也就是Siri弄清楚你說什么,以及文本轉(zhuǎn)語音,也就是Siri會進行回話。
 
  在眾人的聲音中(尤其是當這些系統(tǒng)變得愈發(fā)個性化時)分辨你的語音是Siri最重要的工作之一。Siri掌握的數(shù)據(jù)越多,蘋果的模型就會越好,它就越能分辨不同的人,甚至能理解很重的口音。這還會變成一個安全問題:研究人員最近發(fā)現(xiàn),他們能夠以高到人類無法聽見的頻率跟Siri溝通,從而使得破解不被發(fā)現(xiàn)。Siri需要學會區(qū)分人和機器的語音,以及你的和別人的語音。
 
  學會講話
讓 Siri 的聲音更像真人,蘋果是如何做到的?
  有一個辦法有助于理解這些系統(tǒng)的工作方式,那就是看看蘋果是怎么教Siri學習新語言的。在把Siri引入新市場——比如說上海時——團隊首先會尋找已有的本地語言數(shù)據(jù)庫。然后通過雇用配音員,讓這些人讀書、讀報以及讀網(wǎng)上的文章等來豐富這個庫。
 
  蘋果的團隊會轉(zhuǎn)錄那些錄音,把單詞跟聲音對應上——更重要的是,要識別音素,也就是構(gòu)成所有話語的獨立聲音(在英語中,“fourteen”是個單詞,而“e”這個英就是音素)。他們試圖以各種能想象得到的方式來捕捉這些音素:在詞尾的時候變?nèi)?,在開始的時候加強,停頓前拉長,疑問句末變成升調(diào)等。每一種表達都有著略為不同的聲波,蘋果的算法會對此進行分析,找出任何特定句子的最合適表達方式。Siri說的每一句話都包含了幾十或者幾百個這樣的音素,就像是用不同雜志里面的字母拼湊出來的勒索信。你聽到Siri說的話里面可能沒有一個字是通過錄音出來的。
 
  再給個例子:“You want to watch this?(你想看這個嗎?)”和“I like your watch(我喜歡你的手表。)”第一句的情況下,Acero說到“watch”時聲音會自然提高,但是在第二句的時候就會變成降調(diào)。Acero說:“單詞還是一樣的單詞,但發(fā)音就完全不一樣了。”在這兩個句子中他都無法使用單詞“watch”的同一份錄音,或者甚至是相同的音素。“one Siiiix NINE fourteenth STREET PhilaDELphia”,發(fā)音就像你的老式GPS導航那樣的系統(tǒng)是很難聽的,尤其是單詞數(shù)量比較多時。
 
  即便在幾年前,計算機和服務器也還不能提供足夠的處理能力來遍歷一個龐大的數(shù)據(jù)庫,為每一次呼叫和響應找到完美的聲音組合。不過現(xiàn)在他們可以了,Acero和他的團隊想要到盡可能多的數(shù)據(jù)。所以在做出了初始模型之后,他們馬上就以所謂的“僅收聽模式”推出Siri。這種模式下你不能跟Siri對話,但是可以按下麥克風按鈕然后下達語音指令或者進行web搜索。這個給蘋果的機器提供了很多不同口音、不同品質(zhì)的麥克風以及各種情況下的輸入,這一切都讓Siri做得比比人更好。蘋果收集(自稱是匿名模式下的)和轉(zhuǎn)錄這一數(shù)據(jù),然后改進算法和訓練神經(jīng)網(wǎng)絡。他們還給機器補充了位置相關(guān)數(shù)據(jù)以及說話習慣——比如3:0美國的說法是three-zero,而英國則是three-nil——然后繼續(xù)調(diào)整系統(tǒng),直到Siri對什么是上海話以及大家是怎么說上海話有著近乎完美的理解。
 
  與此同時,蘋果還進行了一場浩大的尋找合適配音員的行動。他們從成百上千人開始,讓這些每個人都錄一段Siri可能會講到的話。然后Acero跟蘋果的設計師和用戶界面團隊一起來決定最喜歡哪一個聲音。這一塊其決定作用的更多的是藝術(shù)而不是科學——他們一邊聽,一邊試圖找感覺,那種難以言喻的感覺,最好要有幫助感和親切感,中氣十足又不要太尖銳,有快樂感但又不能太卡通。
 
  接下來的部分就是科學了。Acero說:“很多配音員的聲音都很好聽,但這并不意味著這些聲音就適合于語音合成。”他們用自己建立的名為音素變異性的模型來對這些講話進行測試,看看每一種細微的表達方式的聲波左右側(cè)的差異性如何。一個音素的變異性太多會使得把很多音素組合起來的時候很難發(fā)出自然的聲音,但你在聽它們講的時候是聽不出問題來的。只有計算機才能看出不同。Acero說:“這幾乎就像在墻上貼墻紙,你得留意接縫才能確保對齊。”
 
  在找到了發(fā)音同時令人和計算機感到滿意的那個人之后,蘋果用了幾周的時間去錄制聲音,然后這就成為了Siri的嗓音。Siri支持的21種語言(針對36個國家進行本地化)都是按照這一流程進行的——這個數(shù)量超過了其所有主要競爭對手支持的語言之和。每個月加起來有3.75億人在使用Siri。這是個很大的數(shù)字,對于一個嚴重瑕疵數(shù)不勝數(shù),很多人直搖頭的語音助手來說更是如此。
 
  盡管如此,與全球10億多的蘋果設備相比這個數(shù)字仍略顯蒼白。從iPhone到Apple Watch,從Macbook到Apple TV,蘋果銷售的幾乎所有東西都包含有Siri。不過分析師預計,很快就會有超過5億的iPhone會被同時激活。Siri是一個流行且重要的功能,但還算不上無所不在。對于大多數(shù)人來說,這個功能絕對不是必不可少的;你對Siri的功能需求并不像對手機的需要那樣?,F(xiàn)在蘋果已經(jīng)有了一位自己信任的助理,它必須教會大家怎么去用Siri。
 
  盡管問我吧
 
  蘋果推Siri的意圖是什么呢?你想知道的一切都可以在這則廣告https://36kr.com/p/5084887.html里面找到。影片跟蹤了Dwayne Johnson(巨石強森)在伙伴Siri陪伴下一天的生活。強森用Siri查看日程安排,用Siri打Lyft,當然,開車的還是他;他還一邊飆車一邊查天氣;在西斯廷教堂畫壁畫的時候用Siri收郵件;在兩個手沒有空的時候用Siri進行單位換算;在太空的時候進行Facetime還拍了個自拍。Siri稱他是“Big、Bald和Beautiful先生”,希望這個聲音到iOS 11的時候聽起來不再那么的不舒服。
 
  Joswiak說,從一開始蘋果就希望Siri成為干臟活的機器。大家通過問一些瑣碎的問題來比較虛擬助理的方式令他感到發(fā)瘋,因為這使得Siri看起來很糟糕。他說:“我們設計Siri不是讓你打破砂鍋問到底的!”
 
  相反,Joswiak仍然專注于幫助大家在一位自動化朋友的幫助下做更多的事。他指出Siri可以在Mac上執(zhí)行復雜的文件搜索,護著即將推出的HomePad對音樂的深厚知識。另一個例子出自我們見面的幾天之后,當時Siri的語音搜索和控制贏得了艾美獎的一項技術(shù)性獎項。它可以下達一些非常出色的指令““嘿Siri,回放2分鐘,”然后你就能重新聽一遍。
 
  Siri不是萬能的,甚至大部分事情都不能做。它最有用的地方是可以讓你少敲幾個字,少滑動幾次屏幕,而不是替你解決復雜的瑣事或者跟你辯論我們是不是生活在模擬世界里面。但因為Siri展現(xiàn)出了沒有限制性——因為你可以問任何事情——用戶自然就想什么都試試。Acero說:“用戶知道自己可以說什么是很重要的。”他的工作之一就是要幫助Siri改善溝通技巧,同時在失敗的時候要表現(xiàn)得優(yōu)雅。他說:“我們在努力賦予Siri這類能力,也就是知道什么地方自己不知道。但這是個很困難的問題。”蘋果網(wǎng)站,甚至包括它的商業(yè)廣告,都是為了幫助大家更好地理解Siri可以做什么,不可以做什么。
 
  另一個挑戰(zhàn)是讓大家記得Siri在著呢。Acero說:“大家做事都有自己的習慣。如果習慣敲字,如果突然改變這一習慣的話,適應是需要一段時間的。”所以蘋果試圖去推動用戶朝著正確的方向走。在iOS 11里面,Siri的存在感會強很多,主動性也會大大加強。它會觀察你瀏覽網(wǎng)頁然后推薦Apple News故事給你閱讀,或者幫助你替剛剛通過Groupon訂購的按摩券添加日程安排。新的Siri會變形,在設備兼同步你的設置,所以不管你在使用哪一種設備,Siri一直都會知道你的習慣。
 
  這些年來,蘋果在讓開發(fā)者跟Siri集成的事情上一直動作緩慢。Alexa以及程度略低的Google Assistant都在鼓勵開發(fā)者替自己的助理開發(fā)應用或者把他們的助理納入進去,但Siri卻仍然對開發(fā)者緊閉大門。巨石強森能做的一切都只能在蘋果自己的應用里面做。它拒絕承認你手機上Google Maps或者Outlook的存在,當然,沒有HomeKit的話你也開不了任何的燈。去年,該公司謹慎地開了一道縫,讓跟多的開發(fā)者進入,使得用戶可以用Siri來跟Whatsapp通話,打Uber,或者通過Venmo轉(zhuǎn)賬。iOS 11之后大門會開得更大,但只是大一點點。
 
  隨著Amazon和Google取得開發(fā)者的支持以及在功能競爭中取得領(lǐng)先,這種動作之慢已經(jīng)讓蘋果付出了在大家眼里失去領(lǐng)先地位的代價。至少Joswiak是表示出耐心的。他說問題不在于Siri能做多少事情。而在于“你怎么把事情做對?因為我們不想對用戶規(guī)約過多。” 他對Amazon和Google苛刻的語法要求感到憤怒,比方說你得這么說:“Alexa,問一下Daily Horoscopes有關(guān)金牛座的情況。”或者“OK,讓我跟Todoist談談。”他寧愿等到你想怎么講就怎么講,不管你想要什么都能如愿的時候。蘋果一如既往的,如果只能做出半成品的話,寧愿什么也不做。
 
  語法問題最終要回到Acerco傾聽Samantha和Theodore Twombly在屏幕上談戀愛時聽到的同一樣東西上。最好的計算機——即便是科幻小說里面的計算機——聽起來也像人。他說:“它會在合適的地方停頓,它會有合適的語調(diào),流暢的發(fā)音。而且聲音里面只有一點點的金屬感。”他希望做點好東西出來,然后提供給每個人。任何時候你想了解進展情況時,只需要看看Siri就行。
 
 
更多>相關(guān)資訊
0相關(guān)評論

推薦圖文
推薦資訊
點擊排行