據(jù)英國《新科學(xué)家》周刊網(wǎng)站6月14日報(bào)道,包括美國谷歌公司多名專家在內(nèi)的400多位人工智能(AI)研究者建議升級著名的圖靈測試,以提高為人工智能技術(shù)評分的能力。

報(bào)道稱,近年來,人工智能語言模型表現(xiàn)出驚人的與人對話的能力,這要?dú)w功于實(shí)驗(yàn)規(guī)模不斷擴(kuò)大——我們有了更強(qiáng)的算力和龐大的訓(xùn)練數(shù)據(jù)集。谷歌公司的一名工程師近日對一個(gè)模型印象深刻,甚至宣稱這個(gè)模型已經(jīng)有了意識(shí)(雖然遭到很多人的質(zhì)疑)。有科研人員預(yù)計(jì)這些模型的規(guī)模仍將繼續(xù)擴(kuò)大,并在今后幾年里展現(xiàn)出新的能力。
為評估目前的技術(shù)水平并為迎接未來更強(qiáng)大的模型做好準(zhǔn)備,來自132家機(jī)構(gòu)的442名研究者花費(fèi)兩年時(shí)間,創(chuàng)造出一套取代圖靈測試的方法,用于評估人工智能模型的隱秘能力,且可在必要時(shí)擴(kuò)展評估范圍。這套方法名為“超越模仿游戲基準(zhǔn)”(BIG-bench),包含204項(xiàng)不同的任務(wù),覆蓋語言學(xué)、數(shù)學(xué)、棋類等一系列主題。根據(jù)設(shè)計(jì),這些任務(wù)將無法被當(dāng)前最先進(jìn)的模型完全解決。
科研人員在一篇介紹“超越模仿游戲基準(zhǔn)”的論文中指出,它將成為一項(xiàng)重要工具,可以啟發(fā)未來的研究,以及識(shí)別和預(yù)見新興人工智能的任何顛覆性新能力或潛在的有害影響。
人類專家完成了這204項(xiàng)任務(wù),為每項(xiàng)任務(wù)確定了平均分和最高基準(zhǔn)分??蒲腥藛T發(fā)現(xiàn),雖然算力的提高幫助人工智能模型取得越來越好的成績,但人工智能在大多數(shù)任務(wù)中的表現(xiàn)仍然不如人類。

科研人員還發(fā)現(xiàn),擴(kuò)大人工智能模型的規(guī)模并沒有提高其在某些任務(wù)中的表現(xiàn),比如涉及長文本的邏輯推理。這等于暗示說,對于一些智力領(lǐng)域而言,單單擴(kuò)大規(guī)模并不能解決問題。事實(shí)上,這項(xiàng)研究還表明,規(guī)模甚至可能帶來問題,比如在某些情況下,衡量社會(huì)偏好的一些測試會(huì)給較大的模型打出較低的分?jǐn)?shù)。
該研究團(tuán)隊(duì)的核心成員包含多位谷歌專家,但該公司沒有回應(yīng)記者的采訪請求。
英國薩里大學(xué)的阿德里安·希爾頓認(rèn)為,圖靈測試未必過時(shí),但對現(xiàn)代人工智能而言不夠有效,或者說覆蓋面不夠廣。圖靈測試最初還被用來評估智力,盡管其是否能夠評估智力是值得商榷的。希爾頓懷疑此次公布的新基準(zhǔn)恐怕也無法衡量真正的智力。
他說:“我認(rèn)為這是一種有效的測試,但我不會(huì)據(jù)此認(rèn)為,說一臺(tái)機(jī)器很聰明與說它有意識(shí)是一回事。我相信,設(shè)置一組基準(zhǔn)是比較一種機(jī)器學(xué)習(xí)算法與另一種算法的一個(gè)辦法,也是比較一種人工智能與另一種人工智能的一個(gè)辦法。但我并不認(rèn)為這一定能解答關(guān)于智力的問題。有了機(jī)器學(xué)習(xí)技術(shù),機(jī)器就能譜寫樂曲,甚至回答問題、寫散文,且是以一種比較有說服力、比較接近人類的方式做這些事情。但這真的是智力嗎?我認(rèn)為并非如此。”