人們都喜歡“看圖說話”,而人工智能(AI)的研究者們希望未來計(jì)算機(jī)能像人類一樣識別圖片,理解圖片背后的故事。但這一領(lǐng)域的頂尖研究者卻認(rèn)為,要達(dá)到這個(gè)層次,人工智能研究的任務(wù)并不輕松。
微軟全球執(zhí)行副總裁沈向洋1月17日在“未來論壇”上談及人工智能中計(jì)算機(jī)視覺的最新研究進(jìn)展時(shí)表示,在圖像處理的問題中,對圖像的理解是一個(gè)前沿性的問題,或許還有“漫漫長路要走”。
沈向洋稱,人工智能已經(jīng)發(fā)展了50余年時(shí)間,真正要把人工智能做得像人類智能一樣的程度,首先要感知,然后是認(rèn)知。人工智能不僅僅是計(jì)算機(jī)科學(xué),它是一門交叉學(xué)科,包括了心理學(xué)、社會學(xué)、哲學(xué)、腦科學(xué)等等。
對圖像的識別則是人工智能發(fā)展中的一個(gè)重要分支,重量級的互聯(lián)網(wǎng)公司都在該領(lǐng)域發(fā)力。
以Google推出的GooglePhotos的為例,GooglePhotos不僅僅是相冊,也具備了智能的圖片識別技術(shù):它可以將相冊中同一個(gè)人物的照片整合在一起,比如回顧一個(gè)嬰兒從小到大的成長軌跡。其“訓(xùn)練”過程是:AI具有30層神經(jīng)網(wǎng)絡(luò),每一層對應(yīng)著不同的抽象程度,比如最低層次能識別光線、色彩,下一層次能識別圖片的邊緣等等。這樣一層層的“訓(xùn)練”需要大量的數(shù)據(jù)。每一層都能提取出更高層次的細(xì)節(jié),而最后一層會決定AI對圖片的理解。
去年年底,微軟亞洲研究院視覺計(jì)算組在一項(xiàng)比賽中,對深層神經(jīng)網(wǎng)絡(luò)技術(shù)又進(jìn)行了突破:目前普遍使用的神經(jīng)網(wǎng)絡(luò)層級能夠達(dá)到20到30層,此次比賽中該團(tuán)隊(duì)應(yīng)用的神經(jīng)網(wǎng)絡(luò)系統(tǒng)實(shí)現(xiàn)了152層。
據(jù)悉,微軟的聊天機(jī)器人小冰已經(jīng)整合了微軟在圖像識別上的技術(shù),不僅能識別圖像類型和要素,還能進(jìn)行人性化的描述。
不過,人工智能在對圖像進(jìn)行處理時(shí),雖然目前的識別技術(shù)已經(jīng)非常先進(jìn)了,但并非每次都很靈光。一些實(shí)驗(yàn)就表明,研究員給出的相似、相近或是較復(fù)雜的圖像,往往能夠騙過計(jì)算機(jī),使其得出錯(cuò)誤或是不那么精確的結(jié)論。
對于這些問題,沈向洋談到,圖像識別可以分為三個(gè)問題:一是對圖像的分類,二是對圖像中的要素的察覺,三是像素級別的區(qū)分。目前對這三個(gè)問題研究的進(jìn)展都很迅速,但應(yīng)該再向前一步對圖像理解進(jìn)行深入研究。
“比如Howold,MicrosoftSelfie這些軟件,對圖像的理解到底能做到什么地步?一張照片來了之后,能不能解釋這張照片到底是什么,能不能挖掘背后的故事。怎么讓這個(gè)過程變得更加有趣。”沈向洋說道。
微軟把這些功能集成在小冰聊天機(jī)器人身上。沈向洋在論壇現(xiàn)場展示的一張圖片顯示,一張照片中有大小兩只貓,如果僅僅是按計(jì)算機(jī)視覺來做,會得出“這張圖里有兩只貓”的結(jié)論,而小冰卻可以說出“看這貓的眼神兒太犀利了”,從而讓聊天過程變得更有趣。沈認(rèn)為,這種人性化的描述通過計(jì)算機(jī)識別無法達(dá)到,只有通過人類交互才能達(dá)到。
這種更為復(fù)雜的交互方式是AI發(fā)展的一個(gè)重要方向。“人工智能是近幾年來最火的研究領(lǐng)域,但是當(dāng)我們真正走向人工智能的時(shí)候,就算是在機(jī)器視覺的這樣一個(gè)分支上,都還有漫漫長路要走。”沈向洋說道。