許多年之前,在一次講座中,人工智能先驅(qū)侯世達(dá)為臺(tái)下音樂專業(yè)的師生播放了兩首作品:一首來自肖邦,一首來自機(jī)器創(chuàng)作的“偽肖邦”,并讓他們判斷哪首是真肖邦,他們受過專業(yè)音樂訓(xùn)練,但多數(shù)人選擇了后者。

這算是圖靈測(cè)試在音樂領(lǐng)域的鏡像。直覺上看,音樂與計(jì)算分列認(rèn)知體系的兩極,前者關(guān)乎感性甚至靈性,后者則被多數(shù)人歸為“死理性派”,窺不見半點(diǎn)美感,但必須承認(rèn),倘若打穿知識(shí)邊界,在更本質(zhì)的意義上,音樂與計(jì)算共享同一套底層邏輯:某種抽象事物的形式組合——我個(gè)人聽到過關(guān)于音樂最好的定義來自數(shù)學(xué)家萊布尼茨:音樂是人類精神通過無意識(shí)計(jì)算獲得的愉悅。
正因如此,人類一直試圖讓機(jī)器擁有“譜寫”音樂的能力——最早的算法作曲(Algorithmic Composition)甚至可追溯到1957年化學(xué)家和音樂家Lejaren Hiller用算法生成了弦樂四重奏伊利亞組曲。如今幾十年過去,在大數(shù)據(jù)“喂養(yǎng)”下,機(jī)器學(xué)習(xí)技術(shù)的發(fā)展讓機(jī)器譜曲這件事愈加成熟,且與其他技術(shù)的嫁接也讓機(jī)器譜曲邁向應(yīng)用層面。
最近一個(gè)例子來自百度深度學(xué)習(xí)實(shí)驗(yàn)室,他們發(fā)明了一種基于輸入圖片生成曲譜的自動(dòng)化系統(tǒng):輸入一張圖片,系統(tǒng)會(huì)自動(dòng)生成一段符合該圖片內(nèi)容和意境,且符合韻律和節(jié)拍的曲譜——換句話說,試圖用機(jī)器視角理解一張圖片,然后創(chuàng)作一段音樂。7月19日晚,百度聯(lián)手尤倫斯當(dāng)代藝術(shù)中心(UCCA)舉辦了一場(chǎng)主題為“AI科技與藝術(shù)之夜”的跨界活動(dòng)。活動(dòng)現(xiàn)場(chǎng),百度人工智能根據(jù)藝術(shù)家勞森伯格“四分之一英里”畫作中的兩個(gè)部分,分別生成了與畫作元素相對(duì)應(yīng)的鋼琴曲。在隨后播放的視頻中,他們還展示了人工智能根據(jù)梵高的《星夜》和徐悲鴻的《奔馬圖》創(chuàng)作的曲子。這是百度首次嘗試將人工智能技術(shù)與藝術(shù)創(chuàng)作相結(jié)合。
那么問題來了,探究這樣一個(gè)看起來頗具藝術(shù)氣質(zhì)的技術(shù),百度意欲何為?
機(jī)器“看圖譜曲”
拆解來看,讓機(jī)器“看圖譜曲”的技術(shù)實(shí)現(xiàn)分兩部分:第一是訓(xùn)練過程,用海量數(shù)據(jù)對(duì)機(jī)器進(jìn)行飼養(yǎng)(近些年來,大規(guī)模計(jì)算能力,各種復(fù)雜模型和算法的誕生,讓深度學(xué)習(xí)的訓(xùn)練數(shù)據(jù)不斷增長(zhǎng)),輸入數(shù)據(jù)是帶有語義標(biāo)簽的圖片庫,曲譜和對(duì)應(yīng)歌詞的曲庫,輸出是語義標(biāo)簽提取模型和曲譜生成模型;第二部分是測(cè)試過程,當(dāng)機(jī)器智慧覓得規(guī)律,輸入一張圖片,則可輸出一曲音樂。
先說訓(xùn)練。訓(xùn)練的第一階段即是利用圖片庫訓(xùn)練學(xué)習(xí),得到語義標(biāo)簽提取模型,訓(xùn)練圖片則由人工標(biāo)注關(guān)鍵詞,包含兩種類型:第一,圖片中出現(xiàn)的物體,譬如高山,大海,天空等;第二,圖片色調(diào)和意境,譬如灰暗的,晴朗的,憤怒的,壓抑的等。訓(xùn)練的第二階段是學(xué)習(xí)得到曲譜生成模型,具體則通過局部曲譜聚類,統(tǒng)計(jì)語義標(biāo)簽與曲譜單元相關(guān)性,統(tǒng)計(jì)局部曲譜單元聚類的相鄰概率等步驟實(shí)現(xiàn)。再說測(cè)試,這一過程同樣包含兩個(gè)階段,第一階段是給定一張圖片,根據(jù)語義標(biāo)簽提取模型判斷其是否可提取得到該語義標(biāo)簽;第二個(gè)階段則是曲譜生成。
當(dāng)然,即便如此——即便機(jī)器譜寫的曲目聲音悅耳,由于“藝術(shù)”長(zhǎng)久以來的某種蠱惑性(其實(shí)藝術(shù)形式的演進(jìn)從來都與技術(shù)進(jìn)步息息相關(guān)),也一定會(huì)有人覺得,這種聲音不是“人工”而是“合成”的,從而構(gòu)建鄙視鏈。但如前所述,作為一門課題,探尋音樂與數(shù)學(xué)的關(guān)系一直存在,不少作曲家都對(duì)二者的結(jié)合進(jìn)行過大膽實(shí)驗(yàn)。
看到一篇作者為海甜寫的文章就介紹到:無論“算法音樂(以數(shù)學(xué)方法代替音樂思維,創(chuàng)作過程即演算過程)”,還是“圖表音樂”,“幾何音樂”,諸多作曲家都試圖以數(shù)學(xué)為路徑窺視音樂本質(zhì)。數(shù)學(xué)家約翰·傅里葉甚至證明所有樂聲都可用數(shù)學(xué)式描述,而萊布尼茨則說:“音樂,就它的基礎(chǔ)來說,是數(shù)學(xué)的;就它的出現(xiàn)來說,是直覺的。”
不過,這當(dāng)然不意味著作曲這件事自此將由機(jī)器代勞——常識(shí)是,在可以預(yù)見的未來,人類與人工智能不是對(duì)立關(guān)系,而更近似于共生。舉個(gè)例子,如你所知,1997年國(guó)際象棋大師卡斯帕羅夫被當(dāng)時(shí)的人工智能打敗,但與直覺相悖,近二十年過去了,國(guó)際象棋的浪潮并未消散,相反,無論玩家數(shù)量還是比賽數(shù)量都一直在提升——人類甚至發(fā)明了一種自由式國(guó)際象棋比賽:人加電腦與其他人加電腦,或者純粹電腦來比賽,在2014年自由式國(guó)際象棋對(duì)抗錦標(biāo)賽上,純?nèi)斯ぶ悄苴A了42場(chǎng),而“人工+智能”型組合贏得了53場(chǎng)。
嗯,人工智能幫助人類成為了更好的棋手,你完全可以期待,這種助力同樣發(fā)生在音樂領(lǐng)域,兩種智慧的合力一齊譜寫出更精致的作品也未嘗可知。說不定未來的譜曲形式是:確定性的部分由機(jī)器完成,而人類則復(fù)雜提供那些真正意義上的“點(diǎn)睛之筆”。
音樂的作用
說回百度這項(xiàng)“看圖譜曲”技術(shù)——它到底有什么用?
事實(shí)上,研發(fā)新技術(shù)并讓它盡快落地,實(shí)現(xiàn)商業(yè)價(jià)值,一直為百度所擅長(zhǎng)。就拿與“看圖譜曲”技術(shù)相關(guān)的圖像識(shí)別來說,其測(cè)試版在2010年末上線,經(jīng)過不斷迭代,如今已被應(yīng)用在電商(譬如拍照購(gòu)物),社交(譬如通過人臉相似度交友)等領(lǐng)域。
“看圖譜曲”同樣如此——相較于讓人工智能單純譜曲以換得人類賞識(shí),“看圖+譜曲”有著更為廣闊的實(shí)用性。最本能地猜測(cè)也許是產(chǎn)品推廣,譬如,機(jī)器譜曲可作為單一商品甚至任何一家網(wǎng)店的背景音樂,讓用戶在購(gòu)物同時(shí)能聽到一段“描述”這個(gè)產(chǎn)品的音樂,從而提升購(gòu)物欲望。
這并非空泛之談。你知道,音樂有著無比漫長(zhǎng)的演化史,它幾乎出現(xiàn)在人類所有儀式和活動(dòng)之中,人腦為何迷戀音樂?它是怎么理解和處理音樂的?這些都是開放且令人著迷的疑問。雖然視覺幫助人類獲取80%以上信息,但來自聽覺的情緒反饋同樣巨大——無論是欣喜藝術(shù)還是日常生活,關(guān)于“一段配樂”的作用,你一定深有體會(huì)。
一種常見解釋是:音樂與多巴胺的釋放有關(guān),后者是一種與“快樂”相關(guān)的激素。作家阿城在《愛情與化學(xué)》一文中曾說:能直接作用于邊緣系統(tǒng)也就是情感中樞的藝術(shù)就是音樂。“音樂由音程、旋律、和聲、調(diào)性、節(jié)奏直接造成‘頻律’(不是旋律),假如這個(gè)頻律引起痛苦中樞或快感中樞的強(qiáng)烈共振(不是共鳴)而導(dǎo)致放電,人就被‘感動(dòng)’,悲傷,興奮,沮喪,快活。同時(shí)腦中的很多記憶區(qū)被激活,于是我們常常聽到或看到這樣的傾訴,‘它使我想起了什么什么……’每個(gè)人的經(jīng)驗(yàn)記憶有不同,于是這個(gè)‘頻律’,也就是‘作品’就被賦予多種意義了。”
所以從這個(gè)意義上,至少在理論上,百度這項(xiàng)“看圖譜曲”技術(shù)也許尚未成熟,但卻可以落地于不同領(lǐng)域——只要涉及“情緒渲染”,譬如廣告,社交軟件,PR營(yíng)銷,甚至最近火熱的AR等等。