人工智能大模型的火熱,也催熱了人形機(jī)器人。
“簡單來說,目前做人形機(jī)器人,包括AI應(yīng)用,只要把現(xiàn)有大模型的技術(shù)拿過來移植或者裁減一下,對人形機(jī)器人來說就已經(jīng)足夠了。”近日,宇樹科技創(chuàng)始人兼首席執(zhí)行官王興興日前對記者作出了如上判斷。
在他看來,人形機(jī)器人已經(jīng)經(jīng)歷了各種高校、科研院所幾十年的研發(fā),過去有高潮也有低谷,但是隨著AI迭代速度越來越快,目前人類的控制技術(shù)已經(jīng)有希望駕馭人形機(jī)器人這么復(fù)雜的機(jī)器人形態(tài),而今年AI的進(jìn)展速度已經(jīng)遠(yuǎn)超機(jī)器人所需的技術(shù)。
事實(shí)上,行業(yè)內(nèi)秉持著如此觀點(diǎn)的人并非少數(shù)。在8月18日下午舉辦的2023世界機(jī)器人大會-通用人形機(jī)器人技術(shù)與產(chǎn)業(yè)創(chuàng)新論壇上,中國科學(xué)院院士、清華大學(xué)交叉信息研究院院長姚期智在現(xiàn)場表示,ChatGPT的能力目前僅主要體現(xiàn)于對語言的處理之上,而如果未來真正讓通用人工智能發(fā)揮出它的價值,AGI一定需要有具身實(shí)體來和真實(shí)的物理世界相交互完成各種任務(wù)。而人形機(jī)器人就是具身智能落地的最理想形態(tài)之一。
硬件、算法與模型
在多位業(yè)內(nèi)專家看來,人形機(jī)器人基本上具備三個部分,第一部分是身體,第二部分是小腦,第三部分則是大腦。身體的具身必須要有足夠的硬件,例如傳感器和執(zhí)行器,小腦會主導(dǎo)視覺、觸覺各種感知來控制身體,完成復(fù)雜的任務(wù),最后大腦主導(dǎo)上層的邏輯推理、決策、長時間的規(guī)劃,以及與其他的智能體和環(huán)境進(jìn)行自然語言交流。
在身體形態(tài)方面,姚期智表示,由于人形能夠適應(yīng)各種環(huán)境,同時人類社會環(huán)境主要是為人類而定制,例如樓梯的結(jié)構(gòu)、門把手的高度、被子的形狀等等,因此如果能夠打造一個有泛應(yīng)用的通用機(jī)器人,人形是最合適的形態(tài)。
而在人形機(jī)器人小腦方面,姚期智指出,搭建在機(jī)器人實(shí)體上、扮演小腦角色的是一套機(jī)器人運(yùn)動控制算法。上層是固態(tài)規(guī)劃層,下層則是基于動力學(xué)的實(shí)時全身運(yùn)動控制,其可以計(jì)算發(fā)給電機(jī)關(guān)節(jié)精確的指令并搭配對應(yīng)狀態(tài)的固定器。
但他同時表示,在構(gòu)建小腦的算法端上行業(yè)還未實(shí)現(xiàn)對于機(jī)器人的更好控制,因此行業(yè)也在利用人工智能、強(qiáng)化學(xué)習(xí)的方法研究靈活度更高的對應(yīng)策略。
在這其中,運(yùn)用強(qiáng)化學(xué)習(xí)框架的好處在于沒有了模型的限制,因此它在復(fù)雜與不確定的環(huán)境下能夠展現(xiàn)出更強(qiáng)的適應(yīng)能力,同時它能夠利用人體運(yùn)動實(shí)際的數(shù)據(jù),給予深度學(xué)習(xí)更好的引導(dǎo)。
“通過強(qiáng)化學(xué)習(xí),機(jī)器人能夠用自然的方式來模擬人態(tài)的行走,這樣也使它消耗更低的能耗,但強(qiáng)化學(xué)習(xí)應(yīng)用的難題就是其所需要的樣本非常多,這也成為一直困擾著行業(yè)的一大挑戰(zhàn)。”姚期智說道。
因此,如何通過創(chuàng)新算法的架構(gòu),實(shí)現(xiàn)更高效率的樣本學(xué)習(xí)能力是行業(yè)需要持續(xù)探索的方向。
此外,在姚期智看來,另一個困擾強(qiáng)化學(xué)習(xí)的難題則是人形機(jī)器人的泛化性,即系統(tǒng)對于這些任務(wù)及其環(huán)境中間的不確定性和干擾,能不能夠泛化的更好。
“谷歌日前推出的palm-e是行業(yè)非常重要的技術(shù)路線,但這一框架也存在著問題,即它的下一層不一定能夠很好執(zhí)行上一層的規(guī)劃,尤其是中間如果發(fā)生一些意外的干擾。而解決的方法在于首先需要像大語言模型一樣,給機(jī)器人描述一下他所需要的任務(wù),機(jī)器人就按照這個任務(wù)來執(zhí)行,比如一個搬箱子的工作,它的右邊是一個攝像頭,在這里面它的視覺語言模型就通過這個視角,檢測是不是有意外發(fā)生,如果有的話怎么樣能夠糾正,看到這個箱子掉到地上,這個機(jī)器人能夠想出一個方法最后把它撿起來,最后能夠完成任務(wù)。”姚期智解釋稱。
工業(yè)與家庭場景落地
在世界機(jī)器人大會期間,人形機(jī)器人具體的落地場景。也成為了與會者密集討論的議題。
優(yōu)必選科技創(chuàng)始人周劍在論壇現(xiàn)場接受21世紀(jì)經(jīng)濟(jì)報道記者采訪時表示,在未來,人形機(jī)器人有兩個最為理想的落地場景:“首先是制造業(yè)場景的應(yīng)用。我們看到當(dāng)下所有的汽車生產(chǎn)線上的工業(yè)機(jī)械手臂還需要幾十萬生產(chǎn)線上的工人來操作,而人形機(jī)器人有望實(shí)現(xiàn)對他們的替代。其次,在生活環(huán)境中那些符合人體工程學(xué)的工作也適合人形機(jī)器人發(fā)揮作用,例如‘陪伴,工作、學(xué)習(xí)與生活’。”
而這就意味著,人形機(jī)器人未來必然走向“通用化”,那么為何在已經(jīng)存在一些標(biāo)準(zhǔn)化機(jī)器人的情況下,行業(yè)仍然需要通用機(jī)器人?
“這是技術(shù)走向更前瞻性、通用性的問題,行業(yè)希望有一種機(jī)器人在誕生后,可以完成所有任務(wù)。而不是每種工作都要去開發(fā)特定的機(jī)器人,因此目前通用人形機(jī)器人的形態(tài)是大家公認(rèn)的最好形態(tài)。”一位業(yè)內(nèi)人士在現(xiàn)場對記者解釋稱。
但值得注意的是,在當(dāng)下這個硬件和軟件等技術(shù)都邁向新臺階的關(guān)鍵節(jié)點(diǎn),人形機(jī)器人技術(shù)實(shí)際上還面臨許多瓶頸。
追覓科技研究院負(fù)責(zé)人喻超接受21世紀(jì)經(jīng)濟(jì)報道記者采訪時指出,人形機(jī)器人行業(yè)公認(rèn)的一個事實(shí)是,行業(yè)要向前發(fā)展,必先跨越“三座大山”,即:技術(shù)難度大,制造成本高昂,以及商業(yè)化難度高。
清華大學(xué)交叉信息研究院助理教授、星動紀(jì)元創(chuàng)始人陳建宇則在現(xiàn)場表示,對硬件來說,行業(yè)希望機(jī)器人同時兼顧力量、速度、精度以及成本,但是目前所有技術(shù)都無法同時兼顧這幾項(xiàng),例如液壓的技術(shù)速度和力量都很強(qiáng),但是它成本太貴。
而高減速比諧波技術(shù),可能精度比較高,但是靈巧性又降低;而新的轉(zhuǎn)制期技術(shù)雖然成本比較低,但是卻犧牲了載荷和精度,因此現(xiàn)在還沒有一個能夠兼顧所有達(dá)到我們滿意的情況。
而在軟件方面,陳建宇表示,行業(yè)目前還無法很好兼顧其泛化性和控制任務(wù)操作的精巧性,“控制的算法以及強(qiáng)學(xué)習(xí)算法,我們可以做到比較精準(zhǔn)的控制,但這基本上目前還是一個任務(wù)對應(yīng)一個模型或者一個特別的算法,很難做到泛化。”
在他看來,現(xiàn)在行業(yè)能做的就是針對不同的應(yīng)用場景,選擇不同的技術(shù)路線,來進(jìn)行下一步的平衡。