熱搜： irobot 機器人佳士科技工業(yè)機器人機器人產(chǎn)業(yè)聯(lián)盟 ABB 發(fā)那科機械手機器人展覽碼垛機器人

研究發(fā)現(xiàn)：AI 越聰明就越有可能“胡編亂造”

日期：2024-09-30 來源：IT之家評論：0

IT之家 9 月 29 日消息，一項新研究發(fā)現(xiàn)，隨著大型語言模型（LLM）變得越來越強大，它們似乎也越來越容易編造事實，而不是避免或拒絕回答它們無法回答的問題。這表明，這些更聰明的 AI 聊天機器人實際上變得不太可靠。

圖源 Pexels

IT之家注意到，該研究發(fā)表在《自然》雜志上，研究人員研究了一些業(yè)界領(lǐng)先的商業(yè) LLM：OpenAI 的 GPT 和 meta 的 LLaMA，以及由研究小組 BigScience 創(chuàng)建的開源模型 BLOOM。

研究發(fā)現(xiàn)，雖然這些 LLM 的回答在許多情況下變得更加準(zhǔn)確，但總體上可靠性更差，給出錯誤答案的比例比舊模型更高。

瓦倫西亞人工智能研究所在西班牙的研究員 José Hernández-Orallo 對《自然》雜志表示：“如今，它們幾乎可以回答一切。這意味著更多正確的答案，但也意味著更多錯誤的答案。”

格拉斯哥大學(xué)的科學(xué)和技術(shù)哲學(xué)家 Mike Hicks 對此進行了更嚴(yán)厲的評價，Hicks（未參與該研究）告訴《自然》雜志：“在我看來，這就像我們所說的胡說八道，它越來越擅長假裝知識淵博。”

測試中，這些模型被問及了從數(shù)學(xué)到地理等各種主題，并被要求執(zhí)行諸如按指定順序列出信息等任務(wù)。總體而言，更大、更強大的模型給出了最準(zhǔn)確的答案，但在更難的問題上表現(xiàn)不佳，其準(zhǔn)確率較低。

研究人員稱，一些最大的“撒謊者”是 OpenAI 的 GPT-4 和 o1，但所有被研究的 LLM 似乎都呈這種趨勢，對于 LLaMA 系列模型，沒有一個能夠達(dá)到 60% 的準(zhǔn)確率，即使是最簡單的問題。

而當(dāng)被要求判斷聊天機器人的回答是準(zhǔn)確還是不準(zhǔn)確時，一小部分參與者有 10% 到 40% 的概率判斷錯誤。

總之研究表明，AI 模型越大（就參數(shù)、訓(xùn)練數(shù)據(jù)和其他因素而言），它們給出錯誤答案的比例就越高。

研究人員稱，解決這些問題最簡單的方法是讓 LLM 不那么急于回答一切。Hernández-Orallo 稱：“可以設(shè)置一個閾值，當(dāng)問題具有挑戰(zhàn)性時，讓聊天機器人說‘不，我不知道’。”但如果聊天機器人被限制為只回答它們知道的東西，可能會暴露技術(shù)的局限性。

聲明：凡資訊來源注明為其他媒體來源的信息，均為轉(zhuǎn)載自其他媒體，并不代表本網(wǎng)站贊同其觀點，也不代表本網(wǎng)站對其真實性負(fù)責(zé)。您若對該文章內(nèi)容有任何疑問或質(zhì)疑，請立即與中國機器人網(wǎng)(www.baoxianwx.cn)聯(lián)系，本網(wǎng)站將迅速給您回應(yīng)并做處理。
電話：021-39553798-8007

更多>相關(guān)資訊

0 條相關(guān)評論

推薦圖文

加州大學(xué)科學(xué)家發(fā)明了	深圳又一制造業(yè)總部基
水下機器人在漁業(yè)中的	哈工程水下機器人再奪
里程碑！荊州市首臺機	超維科技精彩亮相電力

推薦資訊

點擊排行

?

• 中國電信 AI 研究院完成首個全國產(chǎn)化萬卡萬參大	• 當(dāng)電視不再是電視，長虹AI TV把科幻電影變?yōu)楝F(xiàn)
• 一鍵屏蔽惡意 AI 模型爬蟲機器人，Cloudflare	• 中控技術(shù)發(fā)布 Plantbot 方案：基于“AI + 機器
• “稚暉君”創(chuàng)業(yè)項目，智元自主研發(fā)的機器人中間	• AI+雙向奔赴！月之暗面 Kimi 攜手用友YonSuite
• GBFA亞洲數(shù)字經(jīng)濟投資論壇將于9月27日登陸深圳	• 英國警方測試 AI 工具：可短時間分析大量數(shù)據(jù)，
• 全球科技早參 \| OpenAI全面發(fā)布類人ChatGPT語音	• 空客AIRBUS與飛思德攜手：虛擬驗證技術(shù)引領(lǐng)航空

恰佩克獎	機器人高峰論壇	機氣林	人形機器人生態(tài)大會	ITES深圳工業(yè)展	優(yōu)氣壓縮機（上海）有限公司	機器人研究院
庫卡機器人	中國傳動網(wǎng)	索比光伏網(wǎng)	數(shù)控機床市場網(wǎng)	國家標(biāo)準(zhǔn)化委員會	國際現(xiàn)代工廠/過程自動化技術(shù)與裝備展覽會

国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

研究發(fā)現(xiàn)：AI 越聰明就越有可能“胡編亂造”