《科創(chuàng)板日報(bào)》4月27日訊4月27日,在第六屆數(shù)字中國建設(shè)峰會上,阿里巴巴董事會主席兼CEO、阿里云智能集團(tuán)CEO張勇透露,阿里云工程師正在實(shí)驗(yàn)將千問大模型接入工業(yè)機(jī)器人,在釘釘對話框輸入一句人類語言,可遠(yuǎn)程指揮機(jī)器人工作。

阿里云當(dāng)天發(fā)布的一個(gè)演示視頻,展現(xiàn)了這一實(shí)驗(yàn)成果。“我渴了,找點(diǎn)東西喝吧。”工程師通過釘釘對話框向機(jī)器人發(fā)出指令后,千問大模型立即理解了指令內(nèi)容并回答,“好的,我找找有什么喝的。”隨后,千問大模型在后臺自動編寫了一組代碼發(fā)給機(jī)器人,機(jī)器人開始識別周邊環(huán)境,從附近的桌上找到一瓶水,并自動完成移動、抓取、配送等一系列動作,順利遞送給工程師。
張勇表示,“制造業(yè)是AI大模型的重要戰(zhàn)場,未來10年最大的機(jī)會就在于云、AI與物理世界機(jī)器的融合,機(jī)器人取水只是第一步,未來能與人直接對話的智能機(jī)器人,將改變整個(gè)工廠的形態(tài)。”

目前,人們依然嚴(yán)重依賴代碼來實(shí)現(xiàn)對機(jī)器人的控制,人類操作機(jī)器人需要學(xué)習(xí)復(fù)雜的編程語言或機(jī)器人系統(tǒng)的細(xì)節(jié),而GPT等大模型的出現(xiàn),為推翻樹立在人類與AI面前的“巴別塔”提供了新思路,即將多模態(tài)的大語言模型作為人類與機(jī)器人溝通的橋梁。
正如阿里云工程師所說,“AI大模型突破了機(jī)器人的局限,讓人類可以通過自然語言指揮機(jī)器完成負(fù)責(zé)任務(wù),讓機(jī)器人真有了大腦。”
另外,大模型對機(jī)器人領(lǐng)域的加持不僅體現(xiàn)在應(yīng)用環(huán)節(jié),也可參與開發(fā)環(huán)節(jié)。據(jù)阿里云工程師介紹,在機(jī)器人開發(fā)階段,工程師可通過千問大模型自動生成代碼指令完成機(jī)器人功能的開發(fā)與調(diào)試,甚至還能為機(jī)器人創(chuàng)造一些全新的功能。
阿里之外,頭部AI大公司均在嘗試以大模型為機(jī)器人注入靈魂。
微軟團(tuán)隊(duì)正探索如何將OpenAI研發(fā)的ChatGPT擴(kuò)展到機(jī)器人領(lǐng)域,旨在讓人類用自然語言控制如機(jī)械臂、無人機(jī)、家庭輔助機(jī)器人等多個(gè)平臺。3月23日,OpenAI還領(lǐng)投了挪威人形機(jī)器人公司1X。
3月8日,谷歌和柏林工業(yè)大學(xué)的團(tuán)隊(duì)重磅推出了史上最大的視覺語言模型——PaLM-E,同時(shí)谷歌表示,計(jì)劃探索PaLM-E在現(xiàn)實(shí)世界場景中的更多應(yīng)用,例如家庭自動化或工業(yè)機(jī)器人,希望PaLM-E能夠激發(fā)更多關(guān)于多模態(tài)推理和具身AI的研究。
不過,大模型只是提供了一種新思路,距離能聽懂“人話”的機(jī)器人面世,還有很長的路要走。語言模型固然可以為機(jī)器人提供更好的步驟規(guī)劃評估和選擇,但并不能面面俱到,比如不能告訴機(jī)器人打開冰箱時(shí)應(yīng)施加多大的力。谷歌在內(nèi)的巨頭也暫時(shí)沒有將裝上大模型的機(jī)器人商業(yè)化的計(jì)劃。