加拿大薩斯喀徹溫省的高中教師兼教練安?約翰遜(Ann Johnson)在 2005 年因腦干中風(fēng)導(dǎo)致近乎完全癱瘓,此后一直飽受閉鎖綜合征的折磨。這種罕見(jiàn)病癥使患者意識(shí)清醒,卻無(wú)法言語(yǔ)或行動(dòng)。18 年來(lái),約翰遜依靠眼動(dòng)追蹤系統(tǒng)以每分鐘 14 個(gè)詞的速度與外界溝通,遠(yuǎn)低于正常人每分鐘約 160 個(gè)詞的對(duì)話速度。然而,如今她終于再次聽(tīng)到了自己的聲音,這得益于一種腦機(jī)接口(BCI)技術(shù),該技術(shù)能夠直接從大腦活動(dòng)中解碼語(yǔ)言。
2022 年,約翰遜成為加州大學(xué)伯克利分校和加州大學(xué)舊金山分校聯(lián)合開(kāi)展的一項(xiàng)臨床試驗(yàn)的第三位參與者。這項(xiàng)試驗(yàn)旨在通過(guò)一種神經(jīng)假體恢復(fù)嚴(yán)重癱瘓患者的語(yǔ)言能力。研究人員通過(guò)植入神經(jīng)假體,從大腦的語(yǔ)言運(yùn)動(dòng)皮層記錄信號(hào),繞過(guò)受損的神經(jīng)通路,從而產(chǎn)生可聽(tīng)的語(yǔ)音。
據(jù)IT之家了解,該設(shè)備依賴于放置在大腦語(yǔ)言生成區(qū)域上方的植入物,當(dāng)約翰遜嘗試說(shuō)話時(shí),植入裝置會(huì)檢測(cè)到神經(jīng)活動(dòng),并將信號(hào)傳輸?shù)竭B接的計(jì)算機(jī)。隨后,人工智能解碼器將這些信號(hào)轉(zhuǎn)化為文本、語(yǔ)音或數(shù)字形象上的面部表情。最初,該系統(tǒng)使用了序列到序列的人工智能模型,需要完整的一句話才能輸出結(jié)果,導(dǎo)致會(huì)有 8 秒的延遲。然而,2025 年 3 月,研究團(tuán)隊(duì)在《自然神經(jīng)科學(xué)》雜志上報(bào)告稱,他們已轉(zhuǎn)向流式架構(gòu),實(shí)現(xiàn)了僅 1 秒延遲的近實(shí)時(shí)翻譯。
為了使體驗(yàn)更加個(gè)性化,研究人員利用約翰遜 2004 年婚禮演講的錄音重現(xiàn)了她的聲音。她還選擇了一個(gè)與自己外貌相符的虛擬形象,該形象能夠模仿微笑或皺眉等面部表情。
加州大學(xué)伯克利分校電氣工程與計(jì)算機(jī)科學(xué)助理教授戈帕拉?阿努曼奇帕利(Gopala Anumanchipalli)、加州大學(xué)舊金山分校神經(jīng)外科醫(yī)生愛(ài)德華?張(Edward Chang)以及伯克利分校博士生凱洛?利特爾約翰(Kaylo Littlejohn)表示,他們的目標(biāo)是使神經(jīng)假肢實(shí)現(xiàn)“即插即用”,將其從實(shí)驗(yàn)系統(tǒng)轉(zhuǎn)變?yōu)闃?biāo)準(zhǔn)臨床工具。未來(lái)改進(jìn)的方向可能包括無(wú)線植入裝置,從而無(wú)需直接連接計(jì)算機(jī),以及更加逼真的虛擬形象,以實(shí)現(xiàn)更自然的互動(dòng)。研究團(tuán)隊(duì)還設(shè)想開(kāi)發(fā)數(shù)字“克隆人”,不僅能復(fù)制用戶的聲音,還能模仿其對(duì)話風(fēng)格和視覺(jué)信號(hào)。
這項(xiàng)突破有望幫助那些因中風(fēng)、肌萎縮側(cè)索硬化癥(ALS)或受傷而失去語(yǔ)言能力的相對(duì)小眾但極為脆弱的群體,讓他們重新獲得更快速、更自然的溝通能力。研究人員強(qiáng)調(diào),該系統(tǒng)只有在參與者有意識(shí)地嘗試說(shuō)話時(shí)才會(huì)工作,從而確保用戶的自主性和隱私。
對(duì)于約翰遜來(lái)說(shuō),這次試驗(yàn)徹底改變了她的生活?!拔蚁M颊呖吹轿?,知道他們的生活并未結(jié)束,”她在接受加州大學(xué)舊金山分校采訪時(shí)說(shuō)。她期待有一天能在康復(fù)中心擔(dān)任咨詢師,借助神經(jīng)假肢與客戶交流。
隨著延遲時(shí)間降至約 1 秒,以及人工智能建模的持續(xù)進(jìn)步,研究人員相信,實(shí)用的實(shí)時(shí)語(yǔ)音恢復(fù)技術(shù)有望在幾年內(nèi)實(shí)現(xiàn),這將徹底改變技術(shù)為失去語(yǔ)言能力的人們賦予聲音的方式。