對人工智能能夠完美再現(xiàn)一個人的聲音的一大擔(dān)憂是其潛在的欺詐行為。這種技術(shù)在過去幾個月里取得了巨大的進步,而且不出所料正在被犯罪分子濫用,他們可以欺騙聲音,讓主人的家人相信這個人需要經(jīng)濟幫助。
《華盛頓郵報》報道,一對70多歲的加拿大夫婦最近接到一個聽起來像他們孫子的電話,聲稱他在監(jiān)獄里,需要保釋金。他們從一家銀行提取了最多3000加元,準備從另一家銀行提取同樣的金額時,經(jīng)理告訴他們,他們被騙了;原來,另一位客戶也接到了類似的電話,并得知是假的。
另一對沒有這么幸運的夫婦是本杰明·珀金的父母。他們接到一個律師的電話,說他們的兒子在一場車禍中殺死了一名美國外交官,而珀金正在坐牢,需要錢來支付訴訟費。律師讓珀金接電話,珀金說他愛他們,并感謝這筆錢。

珀金說,這個聲音聽起來"足夠接近,讓我的父母真正相信他們確實在和我說話"。他的父母通過一個比特幣終端向詐騙者匯出15449美元,至今仍未能取回。
基于語音的騙局并不新鮮。聯(lián)邦貿(mào)易委員會的數(shù)據(jù)顯示,去年有36000份關(guān)于人們被假裝成朋友或家人的犯罪分子詐騙的報告,其中超過5100起事件發(fā)生在電話中。
欺騙一個人的聲音曾經(jīng)是一個復(fù)雜而漫長的過程,涉及到發(fā)現(xiàn)和收集數(shù)小時的音頻,而最終的結(jié)果并不總是很有說服力。然而,現(xiàn)在,人工智能工具已經(jīng)使這一過程變得如此簡單,以至于騙子只需要一個人說話的小片段,通常是從社交媒體賬戶上收集的,就可以準確地重現(xiàn)他們的聲音。
這種技術(shù)的一個例子是微軟公司在1月份宣布的Vall-E工具。它建立在meta公司2022年10月宣布的一項名為EnCodec的技術(shù)基礎(chǔ)上,通過分析一個人的聲音,將信息分解為各個組成部分,并利用其訓(xùn)練來合成該聲音在說不同短語時的聲音。即使只聽了三秒鐘的樣本,Vall-E也能復(fù)制出說話者的音色和情緒語調(diào)。在這個GitHub頁面上,可以看到它是多么的令人信服。
提供生成性人工智能語音工具的ElevenLabs最近在Twitter上表示,它看到"越來越多的語音克隆誤用案例"。這導(dǎo)致其VoiceLab程序的免費版本中刪除了聲音克隆功能。