IT之家1月2日消息,機(jī)器學(xué)習(xí)和人工智能已經(jīng)在各行各業(yè)掀起了新的變革浪潮,其重點(diǎn)表現(xiàn)形式是各種大模型支撐的“智能體”(agent),指能自主活動的軟件或者硬件實(shí)體。

這些“智能體”可以和用戶進(jìn)行自然對話,并根據(jù)對話內(nèi)容獨(dú)立處理各種任務(wù),展示了它們在眾多領(lǐng)域徹底改變?nèi)蝿?wù)解決方式的潛力。
不過這些人工智能驅(qū)動的“智能體”面臨的一個重大挑戰(zhàn)是,它們傾向于孤立運(yùn)行,經(jīng)常會重復(fù)錯誤,并采用低效的試錯方法,限制了它們的效率,阻礙了它們的學(xué)習(xí)過程。

雖然大語言模型陸續(xù)開發(fā)了上下文敏感記憶、多步驟規(guī)劃和戰(zhàn)略性工具等高級功能,但這些“智能體”在執(zhí)行任務(wù)時通常無法吸取歷史經(jīng)驗(yàn),從而導(dǎo)致其解決問題的能力效率低下。
來自清華大學(xué)、大連理工大學(xué)和北京郵電大學(xué)的科研團(tuán)隊(duì)近日推出了突破性框架--“體驗(yàn)式協(xié)同學(xué)習(xí)”(Experiential Co-Learning),目標(biāo)是大幅提高“智能體”的學(xué)習(xí)能力。
這一創(chuàng)新方法將過去的經(jīng)驗(yàn)融入到“智能體”的操作結(jié)構(gòu)中,從而重新定義了“智能體”的協(xié)作和學(xué)習(xí)方式。
該框架包括三個不可分割的模塊:共同追蹤(co-tracking)、共同記憶(co-memorizing)和共同推理(co-reasoning),每個模塊都在增強(qiáng)“智能體”的協(xié)作和學(xué)習(xí)能力方面發(fā)揮著至關(guān)重要的作用。
共同追蹤:
“智能體”進(jìn)行合作演練,對各種訓(xùn)練任務(wù)的“程序軌跡”進(jìn)行細(xì)致追蹤。這種跟蹤為“智能體”分享經(jīng)驗(yàn)和合作制定策略奠定了基礎(chǔ)。
共同記憶
根據(jù)外部環(huán)境反饋,從這些軌跡中策略性地提取“快捷方式”,從而進(jìn)一步推進(jìn)上述工作。這些“快捷方式”被整合到“智能體”的集體經(jīng)驗(yàn)庫中,使他們能夠參考過去的經(jīng)驗(yàn),加強(qiáng)未來的任務(wù)解決策略。
共同推理
結(jié)合了“智能體”的集體經(jīng)驗(yàn)庫,使它們能夠通過細(xì)化指令和響應(yīng)進(jìn)行更高級的互動。通過利用各自的經(jīng)驗(yàn)知識,“智能體”可為未知任務(wù)提供更有洞察力和更準(zhǔn)確的解決方案。
團(tuán)隊(duì)在部署“體驗(yàn)式協(xié)同學(xué)習(xí)”之后,發(fā)現(xiàn)可顯著提高“智能體”的學(xué)習(xí)能力,具備更高的協(xié)作效率,大大減少了重復(fù)性錯誤和執(zhí)行時間,并減少了軟件開發(fā)中對額外人力參與的需求。
“智能體”能夠從過去的經(jīng)驗(yàn)中回憶并應(yīng)用高質(zhì)量的"捷徑",再結(jié)合底層LLM的能力,證明了性能的提高。
該框架使“智能體”能夠從過去的經(jīng)驗(yàn)中學(xué)習(xí)并有效利用這些經(jīng)驗(yàn),從而彌補(bǔ)了它們在操作能力上的一個關(guān)鍵差距。
這一進(jìn)步提高了自主“智能體”的效率,減少了它們對人工干預(yù)的依賴,為未來的獨(dú)立智能系統(tǒng)鋪平了道路。