
谷歌搜索已經(jīng)能直接告訴你答案
試試向谷歌的搜索 App 詢問:“地球上飛得最快的鳥是什么鳥?”,它會回答你:“游隼”。根據(jù) YouTube,游隼的最快速度達(dá)到 389 公里/小時。
回答正確,但這個答案不是從谷歌內(nèi)部的主要數(shù)據(jù)庫中來的。當(dāng)你問它上述問題時,谷歌的搜索引擎會精確定位到一個 YouTube 視頻,這個視頻是介紹地球上飛得最快的 5 種鳥類的,搜索引擎隨后從視頻中提取出需要的信息來回答你的問題,并且不會提到其他 4 種鳥類。
如果你問:“光明節(jié)有多少天?”或者“Totem 持續(xù)多長時間?”,谷歌搜索引擎會知道這里的 Totem 是指太陽馬戲團(tuán)的演出,回答你它持續(xù)兩個半小時,包括 30 分鐘的休息時間。
谷歌搜索 App 能做到像這樣回答問題是利用了深度神經(jīng)網(wǎng)絡(luò)。深度神經(jīng)網(wǎng)絡(luò)作為人工智能的一種形式,不僅改進(jìn)了谷歌搜索引擎,甚至讓整個谷歌公司,以及 Facebook、微軟等其他互聯(lián)網(wǎng)巨頭改頭換面。深度神經(jīng)網(wǎng)絡(luò)是一種模式識別系統(tǒng),能夠通過分析大量數(shù)據(jù)學(xué)習(xí)執(zhí)行特定的任務(wù)。在谷歌搜索 App 的例子中,深度神經(jīng)網(wǎng)絡(luò)學(xué)會了從互聯(lián)網(wǎng)上的相關(guān)網(wǎng)頁中獲取長句子或段落,然后從中提取出有關(guān)問題答案的信息。
谷歌搜索桌面版最近應(yīng)用了這些“句子壓縮算法”(sentence compression algorithms)。這些算法處理的任務(wù)對人類來說非常簡單,但一直以來對機(jī)器來說是相當(dāng)困難的,即自然語言處理任務(wù)。句子壓縮算法顯示了深度學(xué)習(xí)對自然語言理解的促進(jìn)作用,以及理解并回應(yīng)人類語言的能力。谷歌搜索部門的產(chǎn)品經(jīng)理 David Orr 就谷歌的句子壓縮研究說:“你需要使用神經(jīng)網(wǎng)絡(luò),起碼這是我們發(fā)現(xiàn)的唯一的方法,我們使用了我們擁有的所有最先進(jìn)的技術(shù)。”
視頻搜索終成現(xiàn)實
谷歌大腦在3月8日的谷歌 Cloud Next 17 云技術(shù)大會上推出 Video Intelligence API。這個 API 能夠識別視頻中的對象,并能夠?qū)崟r地搜索它們。
新的 Video Intelligence API 讓開發(fā)者構(gòu)建可以從視頻中提取對象應(yīng)用程序。在此之前,這類提取還只能通過圖像而不是視頻,但這個新的 API 實現(xiàn)了從視頻中提取對象。該 API 能對視頻進(jìn)行全片分析,提煉全片的故事脈絡(luò),記錄一共發(fā)生多少個場景,每個場景的清潔。這有助于對視頻進(jìn)行更精確的標(biāo)簽分類。
谷歌視頻智能 API 實現(xiàn)了從視頻中提取對象
開發(fā)者能夠利用該 API 構(gòu)建有創(chuàng)意的應(yīng)用程序,讓用戶能夠搜索任何與他們正在觀看的視頻內(nèi)容相關(guān)的信息。這給“觀看節(jié)目”這個詞帶來的全新的意義——當(dāng)你能夠找到你想看的節(jié)目任何方面的更深入的信息的話,“觀看節(jié)目”可能就不止于觀看了。
這對于科學(xué)研究也有重大意義。數(shù)據(jù)分析和圖像處理方面的專家 Mathias Ortner 說:“測試顯示,谷歌云機(jī)器學(xué)習(xí)能夠幫助提高我們分析衛(wèi)星圖像的準(zhǔn)確性和速度,它解決了這個已有幾十年歷史的問題。”
AI 再造搜索3招:谷歌如何用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)直接給你答案
除了能夠從視頻中提取元數(shù)據(jù),Video Intelligence API 還允許用戶標(biāo)記視頻中的場景變化。這些視頻接著被存儲在谷歌的云存儲平臺上。視頻分析此前是讓研究人員十分痛苦的事情,但有了機(jī)器學(xué)習(xí)的能力,谷歌的這項新服務(wù)能夠讓從視頻中提取數(shù)據(jù)就像處理靜態(tài)圖像一樣簡單。谷歌也在推進(jìn)其使用 TensorFlow 框架的云機(jī)器學(xué)習(xí)引擎,以允許創(chuàng)造自定義的學(xué)習(xí)模型。
改變數(shù)字營銷,SEO 將變得極端技術(shù)化
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)也在改變數(shù)字營銷的面貌。在這股潮流當(dāng)中,谷歌無疑處于領(lǐng)頭羊的地位。再一次地,谷歌使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。谷歌曾經(jīng)公開宣布,使用機(jī)器學(xué)習(xí)的 RankBrain 是其搜索引擎網(wǎng)站排名算法的第三大要素。
谷歌在 2015 年推出了 RankBrain,RankBrain 并不是算法的一部分,它的作用是了解哪種算法組合最適用于當(dāng)前類型的搜索結(jié)果。這也意味著,對于每個搜索結(jié)果,谷歌都使用了完全不同的算法混合方式。確切地說,RankBrain 在詞的水平上進(jìn)行操作,為每個搜索結(jié)果都進(jìn)行算法的個性定制。
AI 再造搜索3招:谷歌如何用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)直接給你答案
RankBrain 用于幫助處理搜索結(jié)果,特別是那些不常見的、復(fù)雜的多字查詢。例如,包含單詞“without”或“not”的否定搜索查詢并不常見,RankBrain 就能幫助這些搜索詞的查詢。
RankBrain 還可以“看出”那些似乎沒有什么關(guān)聯(lián)的搜索之間的模式,從而了解這些搜索之間有什么相似的地方。然后,RankBrain 還能將這些搜索與它認(rèn)為搜索者正在尋找的結(jié)果相關(guān)聯(lián)。谷歌有一個循環(huán)流程,讓 RankBrain 離線學(xué)習(xí)材料,然后測試它,然后在線使用新的版本。這種循環(huán)不斷重復(fù),RankBrain 變得越來越聰明,可以更好地處理這些不尋常的搜索查詢。
RankBrain 這個新型深度學(xué)習(xí)系統(tǒng)還可以學(xué)習(xí)分辨“好”網(wǎng)站長什么樣,“壞”網(wǎng)站長什么樣。不同的垂直領(lǐng)域具有不同的客戶關(guān)系管理方式、不同的模板和數(shù)據(jù)結(jié)構(gòu)類型。谷歌為每一個搜索結(jié)果賦予不同的算法權(quán)重,因此每個垂直領(lǐng)域都有不同的“好”網(wǎng)站和“壞”網(wǎng)站實例。
當(dāng) RankBrain 運(yùn)行時,它會學(xué)習(xí)每種垂直環(huán)境中的正確“設(shè)定”是什么樣的。你或許已經(jīng)猜到,這些正確設(shè)定是什么完全取決于該設(shè)定所處于的垂直領(lǐng)域是什么樣的。例如,在醫(yī)療產(chǎn)業(yè)中,谷歌知道像 WebMD.com 這樣的網(wǎng)站聲譽(yù)良好,并會把這樣的網(wǎng)站放在其搜索索引的頂部位置。而任何結(jié)構(gòu)上與 WebMD 網(wǎng)站相似的網(wǎng)站,也會被歸類到“好”網(wǎng)站的類別中。類似的,那些與已知的醫(yī)療領(lǐng)域垃圾網(wǎng)站結(jié)構(gòu)相似的網(wǎng)站則會被歸為“壞”網(wǎng)站的類別。
對于那些包含了許多不同類別的網(wǎng)站,比如 How-To 型網(wǎng)站,為了避免深度學(xué)習(xí)方法崩潰,谷歌可能會使用看起來隨機(jī)的數(shù)據(jù)——當(dāng)然,這只是一種可能。它可能從眾多類別中選擇這個類別,也可能選擇另一個類別。對于像 Wikipedia 這樣的著名網(wǎng)站來說,谷歌可能完全不采取任何分類過程,這也是為了確保深度學(xué)習(xí)過程不會打擾用戶既有的搜索體驗(因為維基這樣的大網(wǎng)站不太可能產(chǎn)生壞網(wǎng)頁)。
谷歌設(shè)計 RankBrain 的目的是讓人沒有辦法再“鉆空子”。沒有了黑帽戰(zhàn)略來擊 RankBrain,谷歌就能以此強(qiáng)制讓網(wǎng)站所有者提升他們網(wǎng)站的用戶友好度。用戶看到的結(jié)果就是,對垃圾郵件網(wǎng)站的打擊力度更大了。此外,更智能的搜索引擎能夠了解哪些網(wǎng)站將在設(shè)備上正常顯示,并將這些結(jié)果傳遞到相應(yīng)的屏幕尺寸上面。也就是說,你還能看到更好的設(shè)備集成和基于所使用的設(shè)備類型得到更好的搜索結(jié)果。
SEO 領(lǐng)域?qū)⒗^續(xù)變得極端技術(shù)化。分析和大數(shù)據(jù)是今日的王道,那些對這些方法尚不熟悉的 SEO 必須盡快趕上,而那些已經(jīng)擁有這些能力的 SEO 有希望未來獲得巨大收益。
深度學(xué)習(xí)的“金數(shù)據(jù)”和“銀數(shù)據(jù)”,商業(yè)模式迭代創(chuàng)新的殺手锏
盡管機(jī)器學(xué)習(xí)和深度學(xué)習(xí)讓谷歌在搜索的各種方面都變得更加智能,但是,仍然存在難以跨越的障礙。
為了讓谷歌搜索自動給出答案,谷歌組織了一個由大量語言學(xué)博士組成團(tuán)隊,它把這支團(tuán)隊稱為“Pygmalion”,使用這些語言學(xué)家人工篩選的數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。實際上,谷歌的機(jī)器通過觀察人類的做法來學(xué)習(xí)如何從長段落中提取相關(guān)答案,這個過程需要重復(fù)多遍,相當(dāng)漫長。這些艱苦的努力表明了深度學(xué)習(xí)的能力和局限性。為了訓(xùn)練像這樣的人工智能系統(tǒng),需要大量的、由專業(yè)人士篩選過的數(shù)據(jù)。這些數(shù)據(jù)不容易得到,也不便宜,而且對這種數(shù)據(jù)的需求不會很快消失。
谷歌的這支語言學(xué)博士團(tuán)隊不僅做句子壓縮的示范,而且要標(biāo)記詞類以幫助神經(jīng)網(wǎng)絡(luò)理解人類語言。Pygmalion 團(tuán)隊包括了來自全球各地的約 100 名語言學(xué)博士,這支團(tuán)隊處理過的數(shù)據(jù)也被稱為“金數(shù)據(jù)”(Gold Data)。相比之下,新聞報道等沒有處理過的數(shù)據(jù)則被稱為“銀數(shù)據(jù)”(Silver Data)。銀數(shù)據(jù)當(dāng)然是有用處的,因為其數(shù)量非常大。但金數(shù)據(jù)是必不可少的。當(dāng)前谷歌 Pygmalion 團(tuán)隊使用的語言有 20 至 30 種。Pygmalion 團(tuán)隊的負(fù)責(zé)人 Linne Ha 也表示,這支團(tuán)隊還將繼續(xù)擴(kuò)大。
我們知道,使用無監(jiān)督學(xué)習(xí),機(jī)器可以從未標(biāo)記的數(shù)據(jù)中學(xué)習(xí),谷歌、Facebook 等公司也已經(jīng)開始這方面的研究。雖然仍有很長很長的路要走,但人工智能正在重塑搜索行業(yè)的面貌,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)已經(jīng)能讓搜索引擎直接告訴我們答案,讓視頻搜索成為現(xiàn)實。
正如上文所說,那些對這些方法尚不熟悉的公司必須盡快趕上,而那些已經(jīng)擁有這些能力的企業(yè)則將在不遠(yuǎn)的未來獲得巨大收益。