国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: 佳士科技  irobot  工業(yè)機(jī)器人  機(jī)器人  ABB  機(jī)器人產(chǎn)業(yè)聯(lián)盟  發(fā)那科  庫(kù)卡  碼垛機(jī)器人  機(jī)械手 

應(yīng)用 AI 之前,你必須了解的 10 項(xiàng)準(zhǔn)備工作

   日期:2017-09-04     來源:36氪    作者:dc136     評(píng)論:0    
標(biāo)簽: 人工智能 AI
 應(yīng)用 AI 之前,你必須了解的 10 項(xiàng)準(zhǔn)備工作
不是每一個(gè)問題都可以通過機(jī)器學(xué)習(xí)來解決,且不是每一個(gè)公司都準(zhǔn)備應(yīng)用人工智能。本文會(huì)告訴你,你的公司是否有利用人工智能的條件,以及在那之前如何才能實(shí)現(xiàn)它。
 
  首先,你知道自己想要預(yù)測(cè)或檢測(cè)什么嗎?你有足夠的數(shù)據(jù)進(jìn)行分析以建立預(yù)測(cè)模型嗎?你有定義模型和訓(xùn)練模型所需的人員和工具嗎?你已經(jīng)有了統(tǒng)計(jì)或物理模型來作為一個(gè)預(yù)測(cè)基準(zhǔn)嗎?
 
  這篇文章對(duì)你的人工智能和機(jī)器學(xué)習(xí)項(xiàng)目進(jìn)行分解,討論其各個(gè)部分所帶來的影響,從而幫助你確定公司是否真正準(zhǔn)備需要利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)或人工智能。
 
  你擁有大量的數(shù)據(jù)
 
  足夠的相關(guān)數(shù)據(jù)是預(yù)測(cè)和特征識(shí)別的必要條件。有了它,你可能會(huì)成功;沒有它,則注定失敗。那么你需要多少數(shù)據(jù)呢?你嘗試納入模型的因素越多,所需要的數(shù)據(jù)就越多,無論你是在做普通的統(tǒng)計(jì)預(yù)測(cè)、機(jī)器學(xué)習(xí)還是深度學(xué)習(xí)。
 
  以銷售預(yù)測(cè)中常見的問題為例,比如,為了避免延遲交貨,且不會(huì)占用太多金錢和現(xiàn)貨貨架空間,那么你下個(gè)月將在邁阿密出售多少海軍藍(lán)短袖襯衫?以及你需要在邁阿密店和亞特蘭大倉(cāng)庫(kù)中儲(chǔ)備多少存活?零售是強(qiáng)季節(jié)性行業(yè),所以你需要從多年的歷史數(shù)據(jù)中總結(jié)出有統(tǒng)計(jì)學(xué)意義的月度數(shù)據(jù),從而修正月度銷量波動(dòng),并建立一個(gè)年化趨勢(shì)——這還只是一個(gè)標(biāo)準(zhǔn)的時(shí)間序列分析。機(jī)器學(xué)習(xí)比統(tǒng)計(jì)模型需要更多的數(shù)據(jù),而深度學(xué)習(xí)模型是它的好幾倍。
 
  統(tǒng)計(jì)模型會(huì)分析你的全國(guó)連鎖店在 5+ 年間的襯衫月銷量,并使用這一數(shù)據(jù)來預(yù)測(cè)下個(gè)月的襯衫銷量,可能有幾十萬(假設(shè)是 30 萬)。然后你可以預(yù)測(cè)邁阿密的襯衫銷量占全國(guó)銷量的百分比(假設(shè)是 3%),并單獨(dú)預(yù)測(cè)出藍(lán)色短袖上衣銷量所占襯衫性銷量的百分比(假設(shè)是 1%)。該模型會(huì)指出,下個(gè)月藍(lán)色短袖襯衫總銷量的 90% 左右將售于邁阿密。你可以通過對(duì)比不同產(chǎn)品的年度同店銷量來核實(shí)預(yù)測(cè)結(jié)果,同時(shí)分析它們之間的差異程度。
 
  現(xiàn)在,假設(shè)你想要考慮一些外部因素,比如天氣和流行趨勢(shì)。短袖襯衫在熱天或晴天時(shí)是不是比陰雨天時(shí)賣的更好?可能如此。你可以將歷史氣象數(shù)據(jù)納入到你的模型中來做預(yù)測(cè),雖然這樣做有點(diǎn)笨拙,因?yàn)槟阈枰鲆粋€(gè)時(shí)間序列的統(tǒng)計(jì)模型,所以你可能會(huì)決定使用回歸森林,順便再試試其它 7 種回歸機(jī)器學(xué)習(xí)模型,然后將每個(gè)模型測(cè)得的「cost」(一個(gè)歸一化誤差函數(shù))與去年的實(shí)際結(jié)果相比較,從而找到最佳模型。
 
  相比于去年同時(shí)段的海軍藍(lán)襯衫銷量,下個(gè)月會(huì)更好還是更差?你可以看看海軍藍(lán)服裝所有的月度銷量,并預(yù)測(cè)出年度流行趨勢(shì),然后將其納入到你的機(jī)器學(xué)習(xí)模型中?;蛘吣憧赡苄枰獊碜詴r(shí)尚媒體方面的信息對(duì)模型進(jìn)行手動(dòng)校正。(「為以防萬一,假設(shè)下月銷量會(huì)提高 20%?!梗?/div>
 
  也許你想建立一個(gè)深度神經(jīng)網(wǎng)絡(luò)來完善這個(gè)模型。你可能會(huì)發(fā)現(xiàn),每添加一個(gè)隱藏層,就可以將回歸誤差提高幾個(gè)百分點(diǎn),直到某一時(shí)刻,再添加隱藏層也無濟(jì)于事,此后收益遞減。這種情況可能是因?yàn)槟J街袥]有更多的特征可供識(shí)別,或者更可能的原因是,已經(jīng)沒有足夠多的數(shù)據(jù)來支持模型的深入改進(jìn)。
 
  你有足夠的數(shù)據(jù)科學(xué)家
 
  可能你已經(jīng)注意到,單個(gè)人需要獨(dú)自建立上面討論的所有模型。其實(shí)不是這樣,建模型不僅僅是把數(shù)據(jù)倒在漏斗中然后按個(gè)按鈕這么簡(jiǎn)單。不管你使用哪種工具——盡管供應(yīng)商可能對(duì)此會(huì)有要求,它需要經(jīng)驗(yàn)、直覺、編程能力和良好的統(tǒng)計(jì)學(xué)背景,這樣才能輕松駕馭機(jī)器學(xué)習(xí),從而實(shí)現(xiàn)你的想法。
 
  尤其是某些廠商往往聲稱,「任何人」或「任何業(yè)務(wù)角色」都可以使用商家預(yù)先訓(xùn)練過、可應(yīng)用的機(jī)器學(xué)習(xí)模型。如果該模型正好可以解決手頭的問題,這話不假,比如將正式的魁北克法語文本翻譯為英語,但更常見的情況是,現(xiàn)有的訓(xùn)練過的機(jī)器學(xué)習(xí)模型并不適用于你的數(shù)據(jù)。既然你已經(jīng)訓(xùn)練了模型,你就需要數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家來指導(dǎo)訓(xùn)練,這更像是一門藝術(shù),而非工程或科學(xué)。
 
  在招聘數(shù)據(jù)科學(xué)家時(shí),最奇怪的事情之一就是對(duì)工作崗位的要求,尤其是與受聘者的實(shí)際技能相比。廣告上經(jīng)常說「招聘:數(shù)據(jù)科學(xué)家。STEM 博士。20 年經(jīng)驗(yàn)?!沟谝粋€(gè)怪事是,該領(lǐng)域的發(fā)展歷程還未足 20 年。第二件怪事是,公司雇傭 26 歲的碩士畢業(yè)生——也即除學(xué)術(shù)界外沒有任何工作經(jīng)驗(yàn),與 20 年經(jīng)驗(yàn)的要求相去甚遠(yuǎn)——偏好那些已經(jīng)有相關(guān)經(jīng)驗(yàn)的人,因?yàn)樗麄儞?dān)心高級(jí)人員太貴,盡管他們的要求是 20 年工作經(jīng)驗(yàn)。是的,這很虛偽,且十之八九是非法的年齡歧視,但現(xiàn)實(shí)情況就是這個(gè)樣子。
 
  你跟蹤或獲得那些重要的因素
 
  即使你有大量的數(shù)據(jù)和很多數(shù)據(jù)科學(xué)家,你也可能無法擁有包含所有相關(guān)變量的數(shù)據(jù)。以數(shù)據(jù)庫(kù)術(shù)語的話說,你可能有大量的行,但缺少一些列。統(tǒng)計(jì)學(xué)上來說就是,你可能有無法解釋的方差。
 
  一些獨(dú)立變量的測(cè)量(比如天氣觀測(cè))很容易獲得并被合并到數(shù)據(jù)集中,甚至可在事后被合并。其它一些變量的測(cè)量或獲取過程可能較為困難,比如不切實(shí)際或成本高昂,即使你知道這些變量是什么。
 
  舉一個(gè)化學(xué)領(lǐng)域的例子。當(dāng)你在銅上鍍鉛時(shí),你可以測(cè)量氟硼酸鍍液的溫度和濃度,并記錄陽極電壓,但如果溶中沒有適宜數(shù)量的肽鏈,那么你就不會(huì)得到很好的結(jié)果。如果你沒有稱量放入溶液中的肽鏈,就無法知道這種關(guān)鍵催化劑的劑量,那么你將無法使用其它變量來解釋電鍍質(zhì)量的變化。
 
  你有清理和轉(zhuǎn)換數(shù)據(jù)的方法
 
  數(shù)據(jù)幾乎總是那么嘈雜。測(cè)量過程可能會(huì)丟失一個(gè)或多個(gè)值;單個(gè)值可能會(huì)超出范圍,或與同一計(jì)量過程中的其它值不相稱;電子測(cè)量可能由于電噪聲而變得不準(zhǔn)確;回答問題的人可能并不理解問題本身,或是編造答案;諸如此類。
 
  在任何分析過程中,數(shù)據(jù)過濾步驟通常需要消耗最多設(shè)置時(shí)間——是根據(jù)我的經(jīng)驗(yàn),它占到總分析時(shí)間的 80% 到 90%。有些公司在它們的 ETL(提取、轉(zhuǎn)換和加載)過程中清理數(shù)據(jù),這樣分析師應(yīng)該永遠(yuǎn)都看到不良數(shù)據(jù)點(diǎn)了,而其它公司則將數(shù)據(jù)與 ETL(以及最后一步的轉(zhuǎn)換步驟)過程放在數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)湖中。這意味著,即使是最容易過濾掉的臟數(shù)據(jù)也會(huì)被保存下來,理論上,過濾器和轉(zhuǎn)換步驟需要隨著時(shí)間的推移而進(jìn)行改進(jìn)。
 
  即使是過濾后的精確數(shù)據(jù)可能也需要在分析前做進(jìn)一步的轉(zhuǎn)換。與統(tǒng)計(jì)學(xué)方法一樣,只有當(dāng)每種可能的狀態(tài)都有相似的行數(shù)時(shí),機(jī)器學(xué)習(xí)模型的效果才最好,這意味著,那些最受歡迎的狀態(tài)數(shù)可能會(huì)由于隨機(jī)抽樣而減少;同樣,當(dāng)所有變量的范圍都被標(biāo)準(zhǔn)化后,機(jī)器學(xué)習(xí)模型才能達(dá)到最佳效果。
 
  例如在微軟的一篇博文中,微軟小娜分析了特朗普和克林頓的競(jìng)選捐款,說明了準(zhǔn)備機(jī)器學(xué)習(xí)數(shù)據(jù)集的方式:創(chuàng)建標(biāo)簽、處理數(shù)據(jù)、設(shè)計(jì)附加功能以及清洗數(shù)據(jù)。這種分析用 SQL 和 R 語言做了幾個(gè)轉(zhuǎn)換,以確定與克林頓或特朗普相關(guān)的各種委員會(huì)和競(jìng)選資金,并基于捐贈(zèng)者的姓名來確定他們的性別,以及糾正拼寫錯(cuò)誤,并修復(fù)類之間的不平衡性(數(shù)據(jù)集中有 94% 都是克林頓的捐款,且大部分是小額捐款)。
 
  你已經(jīng)對(duì)數(shù)據(jù)做了統(tǒng)計(jì)分析
 
  在分析數(shù)據(jù)和解決問題時(shí),最應(yīng)該避免的就是一個(gè)勁地往前沖。在你能夠弄清楚發(fā)生的事情及其原因之前,你需要退后一步,看一看所有的變量及其相互之間的關(guān)系。
 
  探索性的數(shù)據(jù)分析可以快速顯示出所有變量的范圍和分布,比如變量對(duì)是趨向于彼此依賴還是各自獨(dú)立、簇位于何處,或哪些地方可能會(huì)有離群值。當(dāng)你的變量高度相關(guān),往往減少分析過程中的某個(gè)變量是很有用的,或進(jìn)行一些類似于逐步多元線性回歸的方法來確定最佳的變量選擇。并不是說最終模型是線性的,但是在引入困難問題之前,嘗試一些簡(jiǎn)單的線性模型很有用;如果你的模型條件太多,那么你可以以一個(gè)超定組(overdetermined system)收尾。
 
  你測(cè)試許多方法來找到最佳模型
 
  對(duì)于一個(gè)給定的數(shù)據(jù)集,找到最佳模式的方法只有一種:全部試一遍。如果你的建模對(duì)象之前已經(jīng)有很多人做過,但仍具挑戰(zhàn)性,比如攝影特征識(shí)別和語言識(shí)別,你可能不由得只想嘗試大賽中的「最佳」模型,但不幸的是,那些模型往往是最為計(jì)算密集型的深度學(xué)習(xí)模型,比如圖像識(shí)別需要卷積層,語音識(shí)別需要長(zhǎng)短期記憶層(LSTM)。如果你需要訓(xùn)練那些深度神經(jīng)網(wǎng)絡(luò),你可能需要比日常辦公所需的更多的計(jì)算能力。
 
  你有足夠的計(jì)算能力來訓(xùn)練深度學(xué)習(xí)模型
 
  你的數(shù)據(jù)集越大,你的深度學(xué)習(xí)模型就需要越多的層,訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時(shí)間也就越多。擁有大量的數(shù)據(jù)可以幫助你訓(xùn)練出一個(gè)更好的模型,層數(shù)多可以幫助你識(shí)別更多特征,但它們也會(huì)由于訓(xùn)練時(shí)間的增加而對(duì)你產(chǎn)生不利的影響。你可能等不了一年的時(shí)間來訓(xùn)練每一個(gè)模型;一周是比較合理的,特別是因?yàn)槟銓⒑苡锌赡苄枰{(diào)整幾十次模型。
 
  解決訓(xùn)練時(shí)間問題的一個(gè)方法是使用通用圖形處理器(GPGPU),比如使用英偉達(dá)公司生產(chǎn)的芯片,來做有關(guān)神經(jīng)網(wǎng)絡(luò)層的向量和矩陣計(jì)算(也稱為線性代數(shù))。相比于僅僅使用一張 CPU,同時(shí)使用一張 GPU 和一個(gè) CPU K80 往往可以提升 5 到 10 倍的訓(xùn)練速度,如果你能將整個(gè)網(wǎng)絡(luò)的「核(kernel)」輸入到 GPU 的本地存儲(chǔ)器中的話,而如果使用一張 P100 GPU,則可以將訓(xùn)練速度提升 100 倍。
 
  在一張 GPU+一張 CPU 的組合之外,你還可以建立多個(gè) CPU 和 GPU 的協(xié)調(diào)網(wǎng)絡(luò),以便在更短的時(shí)間內(nèi)解決更大的問題。除非你全年都在訓(xùn)練深度學(xué)習(xí)模型,且有一個(gè)巨大的資本預(yù)算,否則你會(huì)發(fā)現(xiàn),租賃云端 GPU 的使用時(shí)間會(huì)是性價(jià)比最高的選擇。一些深度學(xué)習(xí)框架,包括 CNTK,MXNet 和 TensorFlow,支持 CPU 和 GPU 的并行計(jì)算,對(duì)于有著適宜性能 GPU 的大型虛擬機(jī)(virtual machine,VM)網(wǎng)絡(luò)來說,它們已被證明擁有合理的縮放系數(shù)(在一個(gè)測(cè)試中大約為 85%)。你可以找到這些框架,并且它們正越來越多地被安裝到由主要云提供商上支持的 GPU 虛擬機(jī)中。
 
  你的機(jī)器學(xué)習(xí)模型優(yōu)于你的統(tǒng)計(jì)模型
 
  簡(jiǎn)單的統(tǒng)計(jì)模型為你的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)項(xiàng)目奠定了基礎(chǔ)。如果你不能提升一個(gè)給定的模型的性能,那么你就應(yīng)該對(duì)其進(jìn)行調(diào)整或嘗試不同方法。一旦你知道你在做什么,你就可以在一個(gè)超參數(shù)優(yōu)化算法的控制下,同時(shí)為許多模型設(shè)置訓(xùn)練參數(shù),然后用最好的結(jié)果指導(dǎo)你的下一步行動(dòng)。
 
  你可以部署預(yù)測(cè)模型
 
  最終,你將希望實(shí)時(shí)應(yīng)用你所訓(xùn)練的模型。預(yù)測(cè)模型可以運(yùn)行在服務(wù)器、云端、個(gè)人計(jì)算機(jī)或電話上,這取決于應(yīng)用程序的不同需要。深度學(xué)習(xí)框架提供了各種選項(xiàng)來將模型嵌入到網(wǎng)頁(yè)和移動(dòng)應(yīng)用程序中。亞馬遜、谷歌和微軟都是通過生產(chǎn)能理解語音的消費(fèi)級(jí)設(shè)備和智能手機(jī)應(yīng)用程序來證明其實(shí)用性。
 
  你能夠定期更新你的模型
 
  如果你已經(jīng)利用自己的數(shù)據(jù)訓(xùn)練好了模型,你會(huì)發(fā)現(xiàn)該模型的誤差率(假陽性和真陰性)會(huì)隨著時(shí)間的推移而增加?;旧?,這是因?yàn)閿?shù)據(jù)會(huì)隨著時(shí)間的推移而漂移:你的銷售模型、競(jìng)爭(zhēng)對(duì)手、風(fēng)格和經(jīng)濟(jì)都會(huì)改變。為了適應(yīng)這種影響,大多數(shù)深度學(xué)習(xí)框架都有一個(gè)選項(xiàng),可以在新數(shù)據(jù)上對(duì)舊模型進(jìn)行再訓(xùn)練,并用新模型替換預(yù)測(cè)服務(wù)。如果你每月都這樣做,應(yīng)該能夠保證你不會(huì)受到數(shù)據(jù)漂移的影響。如果你不能,那么你的舊模型最終將變得不足為靠。
 
  回到本文開頭的那些問題,你知道自己想要預(yù)測(cè)或檢測(cè)什么嗎?你有足夠的數(shù)據(jù)進(jìn)行分析以建立預(yù)測(cè)模型嗎?你有定義模型和訓(xùn)練模型所需的人員和工具嗎?你已經(jīng)有統(tǒng)計(jì)或物理模型來作為一個(gè)預(yù)測(cè)基準(zhǔn)嗎?
 
  如果已萬事俱備,那你還在等什么?
 
 
更多>相關(guān)資訊
0相關(guān)評(píng)論

推薦圖文
推薦資訊
點(diǎn)擊排行