IT之家5月14日消息,OpenAI員工WilliamFedus周一在社交平臺X證實(shí),近期在LMSYS聊天機(jī)器人競技場(ChatbotArena)上表現(xiàn)優(yōu)異的神秘聊天機(jī)器人“gpt-chatbot”,正是他們剛剛發(fā)布的全新人工智能模型GPT-4o。Fedus還透露,GPT-4o在測試中登頂了競技場排行榜,取得了有史以來的最高分。
“GPT-4o是我們最先進(jìn)的尖端模型,”Fedus在推特上寫道,“我們一直在競技場使用‘im-also-a-good-gpt2-chatbot’的名稱測試該模型的一個(gè)版本。”

聊天機(jī)器人競技場是一個(gè)網(wǎng)站,訪客可以同時(shí)與兩個(gè)隨機(jī)的AI語言模型對話,卻不知道哪個(gè)是哪個(gè),然后選擇提供更好回復(fù)的模型。
從今年4月份開始,OpenAI在競技場測試了多個(gè)版本的GPT-4o,該模型最初以“gpt2-chatbot”的名稱出現(xiàn),然后變成了“im-a-good-gpt2-chatbot”,最后是“im-also-a-good-gpt2-chatbot”。
自GPT-4o今日發(fā)布以來,多方消息人士透露,該模型以巨大優(yōu)勢登頂了LMSYS的內(nèi)部排行榜,超越了之前排名最高的模型Claude3Opus和GPT-4Turbo。
lmsys.org的官方賬號分享了一張圖表,并寫道:“‘gpt2-chatbot’系列模型剛剛飆升至榜首,以顯著的優(yōu)勢(約50Elo)超越了所有其他模型,它已經(jīng)成為競技場中最強(qiáng)大的模型。這是一張內(nèi)部截圖,公開版本的‘gpt-4o’現(xiàn)已進(jìn)入競技場,并很快將出現(xiàn)在公開排行榜上!”
截至IT之家發(fā)稿時(shí),“im-also-a-good-gpt2-chatbot”的Elo分?jǐn)?shù)為1309,領(lǐng)先于GPT-4-Turbo-2023-04-09的1253分和Claude3Opus的1246分。在三個(gè)“gpt2-chatbot”出現(xiàn)并攪局之前,Claude3和GPT-4Turbo一直在排行榜上爭奪冠軍。