
說得直白點,大意是 “在網(wǎng)絡(luò)試驗中,機器人攪局小淘氣,反而促進人類協(xié)作”。
這篇論文提了一個好問題,機器人與人能否和諧相處?機器人的參與,是否能促進而不是破壞,人類的社會協(xié)作?
論文設(shè)計了一個交互行為被嚴格限定的游戲,來證實存在這么一種可能性:
在某些特定任務(wù)中,人與機器人,是可以和諧相處,并且相互促進的。
可能性固然重要,但是更重要的,是要找到一種方法,來教育機器人應該如何行動,才能幫助人與機器人組成的群體,實現(xiàn)整個群體的最優(yōu)目標。以及為了實現(xiàn)全局最優(yōu),在什么情況下,機器人需要攪局,以犧牲局部收益為代價,打破僵局。
其實這個方法是現(xiàn)成的,這就是Reinforcement Learning (強化學習)。尤其值得關(guān)注的是,強化學習與深度學習的雜交,Deep Reinforcement Learning。
DeepMinders 用 Deep Reinforcement Learning 技術(shù),在幾十個游戲上,擊敗了人類玩家。
令人好奇的是,如果讓機器人參與團隊對戰(zhàn)游戲,每個團隊有多人組成。而且團隊中不僅可以有人類玩家,也可以有機器人。
如果用深度強化學習技術(shù)來訓練機器人,是否會提升人機團隊的戰(zhàn)績?
遇到危險的時候,機器人是否會主動自我犧牲,以便保全人類玩家?
或者,機器人是否會以團隊戰(zhàn)績?yōu)樽罡吣繕?,不惜犧牲人類玩家,保全機器人,來取得整個團隊的戰(zhàn)績?
先前人們普遍認為,機器人的行為取決于算法,而算法是人類編寫的。所以,機器人的行為,完全是人類預先設(shè)定的。但是當機器人的行為是通過 “機器學習算法” 學習來的,機器人的行為,就不再那么嚴絲合縫地符合人類的預期了。
更進一步,不久的將來,機器將擁有 “Learn to learn” 的能力,屆時,人類更無法準確地預期機器人的行為了。
除了玩游戲,機器學習技術(shù),能夠在現(xiàn)實生活中,發(fā)揮作用?
從技術(shù)方面講,Chatbot 技術(shù)日臻完善,現(xiàn)在已經(jīng)開發(fā)了不少客服機器人。節(jié)省人工,提高客服質(zhì)量。如果機器對話的技術(shù)障礙解決了,下一個問題,是如何讓機器人助力網(wǎng)上社區(qū)的運營。
客服與運營有很大不同??头且粚σ坏膶υ挘\營的核心是群體的協(xié)調(diào),包括挑起爭論、幽默搞笑舒緩氣氛、轉(zhuǎn)移話題降溫爭吵,等等。運營中最難的又最重要的,是時事營銷。人類編輯的反應速度,肯定比不上永遠在線,永遠不知疲倦的機器人。
互聯(lián)網(wǎng)讓人與人的交流更方便,同時互聯(lián)網(wǎng)也產(chǎn)生了大量數(shù)據(jù)。如何挖掘這些數(shù)據(jù),如何從中提煉出協(xié)調(diào)人群的有效算法,是大數(shù)據(jù)和機器學習的工作。
機器人參與人類社會的互動和協(xié)作,多半是從網(wǎng)絡(luò)互動開始的。
機器人監(jiān)管促進人類社會的協(xié)作,多半是從社區(qū)的運營開始的。