熱搜： 佳士科技 irobot 工業(yè)機(jī)器人機(jī)器人機(jī)器人產(chǎn)業(yè)聯(lián)盟 ABB 發(fā)那科機(jī)械手碼垛機(jī)器人機(jī)器人展覽

斯坦福大學(xué)研究發(fā)現(xiàn)，AI 聊天機(jī)器人 ChatGPT 的表現(xiàn)很不穩(wěn)定

日期：2023-09-08 來源：IT之家評(píng)論：0

　　斯坦福大學(xué)的一項(xiàng)新研究發(fā)現(xiàn)，熱門生成式人工智能（AI）聊天機(jī)器人ChatGPT的能力在幾個(gè)月內(nèi)有所波動(dòng)。

　　斯坦福大學(xué)的團(tuán)隊(duì)評(píng)估了ChatGPT在幾個(gè)月內(nèi)如何處理不同的任務(wù)。他們發(fā)現(xiàn)，ChatGPT的能力隨時(shí)間的推移而出現(xiàn)了不一致。目前，ChatGPT有兩個(gè)版本——免費(fèi)的GPT-3.5模型和更智能、更快速的付費(fèi)GPT-4版本。研究人員發(fā)現(xiàn)，GPT-4在3月份能夠有效地解決數(shù)學(xué)問題，識(shí)別質(zhì)數(shù)的準(zhǔn)確率為97.6%。三個(gè)月后，其準(zhǔn)確率下降到了2.4%。而另一方面，GPT-3.5卻變得更好，從7.4%的準(zhǔn)確率提高到了86.8%。

　　研究人員還注意到，在編寫代碼和視覺推理方面也有類似的波動(dòng)。斯坦福大學(xué)計(jì)算機(jī)科學(xué)教授James Zou稱：“當(dāng)我們調(diào)整一個(gè)大型語言模型來提高它在某些任務(wù)上的表現(xiàn)時(shí)，那可能會(huì)有很多意想不到的后果，可能會(huì)損害這個(gè)模型在其他任務(wù)上的表現(xiàn)……這個(gè)模型回答問題的方式有各種各樣的相互依賴性，這可能導(dǎo)致我們觀察到的一些惡化行為。”

　　研究人員認(rèn)為，結(jié)果并不能真正反映ChatGPT性能的準(zhǔn)確性狀態(tài)，而是顯示了微調(diào)模型帶來的意外后果。本質(zhì)上，當(dāng)修改模型的一部分來改善一個(gè)任務(wù)時(shí)，其他任務(wù)可能會(huì)受到影響。為什么會(huì)這樣很難確定，因?yàn)闆]有人知道ChatGPT是如何運(yùn)作的，而且它的代碼也不是開源的。

　　隨著時(shí)間的推移，研究人員注意到，ChatGPT的回答不僅變得不太準(zhǔn)確，而且還停止了解釋其推理過程。

　　由于ChatGPT的運(yùn)作方式，要研究和衡量它的表現(xiàn)可能很困難，這項(xiàng)研究強(qiáng)調(diào)了觀察和評(píng)估驅(qū)動(dòng)ChatGPT等工具的大型語言模型（LLM）性能變化的必要性。該研究已經(jīng)在arXiv上發(fā)布，并正在等待同行評(píng)審，IT之家附鏈接在此。

聲明：凡資訊來源注明為其他媒體來源的信息，均為轉(zhuǎn)載自其他媒體，并不代表本網(wǎng)站贊同其觀點(diǎn)，也不代表本網(wǎng)站對(duì)其真實(shí)性負(fù)責(zé)。您若對(duì)該文章內(nèi)容有任何疑問或質(zhì)疑，請(qǐng)立即與中國機(jī)器人網(wǎng)(www.baoxianwx.cn)聯(lián)系，本網(wǎng)站將迅速給您回應(yīng)并做處理。
電話：021-39553798-8007

更多>相關(guān)資訊

0 條相關(guān)評(píng)論

推薦圖文

加州大學(xué)科學(xué)家發(fā)明了	深圳又一制造業(yè)總部基
水下機(jī)器人在漁業(yè)中的	哈工程水下機(jī)器人再奪
里程碑！荊州市首臺(tái)機(jī)	超維科技精彩亮相電力

推薦資訊

點(diǎn)擊排行

?

<abbr id="otvla"><rp id="otvla"></rp></abbr>

• 大摩本月將推 AI 聊天機(jī)器人：與 OpenAI 共同研	• 螞蟻集團(tuán)明日發(fā)布全棧布局、純自研的 AI 大模型
• 上海杯首次走出國門象棋AI機(jī)器人也將在德國亮	• 自稱 25 年碼農(nóng)，唐娜姐負(fù)責(zé)微軟新 AI 項(xiàng)目：幫
• 騰訊 AI 聊天機(jī)器人即將公布：官方展示寫文案能	• 高通 CEO：AI 或?qū)⒔o智能手機(jī)帶來新生
• 金山辦公與阿里云達(dá)成戰(zhàn)略合作，圍繞 AI 助手等	• 百川智能發(fā)布 Baichuan 2 開源大模型，號(hào)稱“文
• 消息稱小米自研系統(tǒng)首先應(yīng)用于 AI 物聯(lián)網(wǎng)和大終	• 大模型技術(shù)實(shí)踐（三）｜10分鐘用LangChain和Lla

恰佩克獎(jiǎng)	機(jī)器人高峰論壇	機(jī)氣林	ITES深圳工業(yè)展	機(jī)器人研究院	API數(shù)據(jù)	庫卡機(jī)器人
中國傳動(dòng)網(wǎng)	索比光伏網(wǎng)	數(shù)控機(jī)床市場網(wǎng)	國家標(biāo)準(zhǔn)化委員會(huì)

国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

斯坦福大學(xué)研究發(fā)現(xiàn)，AI 聊天機(jī)器人 ChatGPT 的表現(xiàn)很不穩(wěn)定

斯坦福大學(xué)研究發(fā)現(xiàn)，AI 聊天機(jī)器人 ChatGPT 的表現(xiàn)很不穩(wěn)定