
“大數(shù)據(jù)”是近幾年科技行業(yè)最喜歡提的詞匯。從 Google 到中國百度,都提出要發(fā)展“深度學(xué)習(xí)”的方針。而百度為了能發(fā)展該技術(shù),不遠(yuǎn)萬里在硅谷設(shè)立研究院,還從 Google 挖來“機(jī)器學(xué)習(xí)”領(lǐng)域的先鋒人物吳恩達(dá),負(fù)責(zé)“百度大腦”計劃。至于未來戰(zhàn)略方向轉(zhuǎn)為“移動為先、云為先”的微軟,最近也披露“大數(shù)據(jù)”相關(guān)的計劃 Project Adam,將挑戰(zhàn) Google 的 Google Brain 計劃。
現(xiàn)在,我們可以看到部分“大數(shù)據(jù)”在實際運(yùn)用的后果。在四年一屆的世界杯里, Google、百度還微軟均利用“大數(shù)據(jù)”預(yù)測出每支球隊的比分情況,甚至還相當(dāng)?shù)販?zhǔn)確——一方面,體育行業(yè)發(fā)展多年,每名球員每場比賽的數(shù)據(jù)均有詳盡的記錄,方便專家研究和解讀,同樣這些已經(jīng)分門歸類的有效數(shù)據(jù)也可以被計算機(jī)利用;另一方面,由于體育游戲的規(guī)則很多,預(yù)測分支的數(shù)量可以控制在一定規(guī)模,這也方便計算機(jī)進(jìn)行預(yù)測。
由于體育行業(yè)的特殊性,未來該領(lǐng)域里將出現(xiàn)不少“大數(shù)據(jù)”案例。不過,在討論未來之前,我們不妨探討一下“大數(shù)據(jù)”運(yùn)用在體育行業(yè)的實際方法。比如說,如何讓機(jī)器明白棒球比賽當(dāng)中,人們?nèi)绾巫鞒鰶Q策,以及如何讓這些模型隨時適應(yīng)新數(shù)據(jù),并運(yùn)用在新的比賽當(dāng)中。
根據(jù) FastCompany 的報道,最近 GigaOm Structure 會議上,來自博思艾倫咨詢公司的雷·亨斯伯格(Ray Hensberger)分享他以及團(tuán)隊為 MIT Sloan Sports Analytics 會議準(zhǔn)備的論文——現(xiàn)在,他的團(tuán)隊利用美國職業(yè)棒球大聯(lián)盟的數(shù)據(jù)提煉出數(shù)據(jù)模型,可以實時預(yù)測一名投手將投出怎樣球,以及何時投出,準(zhǔn)確率高達(dá) 74.5%。
亨斯伯格介紹,團(tuán)隊先從 900 個投手著手,分析他們的比賽數(shù)據(jù),后來又采用排除法,將過去三個賽季投球數(shù)量少于 1000 的球手排除掉,這樣就只剩下 400 名投手作為數(shù)據(jù)分析的樣本。除了投手本身的數(shù)據(jù)外,團(tuán)隊也分析當(dāng)前比賽的數(shù)據(jù),比如場地類型、擊球數(shù)等等;還有一些和比賽相關(guān)的情況,比如回合數(shù)、出局?jǐn)?shù)以及球場上的人數(shù)和球員的位置;至于球手,他們的分析條件將包括球手的偏手性,曲球的出手時機(jī)、快速球的速度、球場選擇的一般規(guī)律、滑球的運(yùn)動等等。
通過大量的數(shù)據(jù)采集以及綜合分析,找出其中的關(guān)聯(lián)性,亨斯伯格和團(tuán)隊最終為每名投手的構(gòu)建個性數(shù)據(jù)模型,能夠預(yù)測一名投手在賽場上會作出怎樣的投球決策。他們所采用的數(shù)據(jù)模型,已經(jīng)總結(jié)到一本名為《The Field Guide To Data Science》的書里。
構(gòu)建數(shù)據(jù)模型的過程可能沒有我們想象中的難,而如何證明數(shù)據(jù)模型是可靠的,卻很關(guān)鍵。亨斯伯格說,構(gòu)建了數(shù)據(jù)模型之后,團(tuán)隊對模型進(jìn)行了 5 重交叉驗證。這種交叉驗證是能夠觀察,為數(shù)據(jù)模型輸入陌生的數(shù)據(jù)集后, 是否有異常的表現(xiàn)。“你不會需要一個基于歷史數(shù)據(jù)預(yù)測準(zhǔn)確度達(dá) 100% 的數(shù)據(jù)模型。如果不經(jīng)過交叉驗證, 而把數(shù)據(jù)模型推出去,人們大概會認(rèn)為你模型只不過適合自己所擁有的數(shù)據(jù)。”
數(shù)據(jù)模型通過驗證后,亨斯伯格和團(tuán)隊就采用“支持向量機(jī)”(Support Vector Machine)機(jī)器學(xué)習(xí)方法中的“一對多方法”(one-versus-rest)來預(yù)測下一場比賽當(dāng)中投球手的投球決策。他們以三種不同的角度來看待數(shù)據(jù):
基于用球數(shù)來預(yù)測:看比賽局勢有利或不利,或者用球數(shù)持平的情況下;
基于“左右病”(platoon system)來預(yù)測,看球場上是否用右撇子擊球手應(yīng)對左撇子投手,反之亦然;
使用“樣本外檢驗”的方法來訓(xùn)練數(shù)據(jù)模型,保證它能正常工作。
亨斯伯格和團(tuán)隊在構(gòu)建球手的數(shù)據(jù)模型時還發(fā)現(xiàn),部分投手的投球決策在一定的情況下十分好預(yù)測。不過,投手投球的可預(yù)測性高低和他的比賽成績沒有關(guān)聯(lián)。亨斯伯格發(fā)現(xiàn),15 個最可預(yù)測的球員當(dāng)中,有 8 個來自有名的辛辛那提紅人隊和圣路易紅雀隊。另外,“左右病”策略也會影響比賽的成績。
盡管“大數(shù)據(jù)”經(jīng)過大量爆光,Google、微軟、百度也通過自己的預(yù)測來證明大數(shù)據(jù)實際運(yùn)用的例子,但是根據(jù) MIT Sloan Sports Analytics 會議的聯(lián)合創(chuàng)始人、聯(lián)合主席杰西卡·吉爾曼(MIT Sloan Sports Analytics)稱,體育數(shù)據(jù)分析目前不是主流,而且不是所有運(yùn)動都可以運(yùn)用這條方法。比如說冰上曲棍球比賽,預(yù)測往往失準(zhǔn)。不過,某些運(yùn)動又可以更快地適用數(shù)據(jù)分析,在這些運(yùn)動當(dāng)中,數(shù)據(jù)分析能夠發(fā)揮顯著的價值。
如果要在體育行業(yè)推廣“大數(shù)據(jù)”分析方法,行業(yè)聯(lián)盟是繞不過去的檻。現(xiàn)在,美國職業(yè)足球大聯(lián)盟還有英格蘭超級聯(lián)賽都已經(jīng)引入了數(shù)據(jù)分析,至于棒球運(yùn)動,幾乎每家棒球隊都擁有一個分析小組。至于商業(yè)方面,數(shù)據(jù)分析還可幫助體育場吸引那些在家通過電視看比賽的人。
不過,即便是亨斯伯格和團(tuán)隊構(gòu)建的數(shù)據(jù)模型的預(yù)測能夠達(dá)到 100% 準(zhǔn)確率,比賽的關(guān)鍵還在于賽場上的人。在 70 年代的美國職業(yè)棒球比賽上,史蒂夫·卡爾頓就依靠“滑球”這一招半式,在 24 年代職業(yè)生涯中投出 329 勝的佳績。對方往往知道卡爾頓要投什么球,但是就是擊不到球,或者擊斷球棒。
戰(zhàn)略都是完美的,但戰(zhàn)術(shù)往往無法完美。