機器學習已廣泛應用于數(shù)據(jù)挖掘、計算機視覺、自然語言處理、生物特征識別、搜索引擎、醫(yī)學診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別、戰(zhàn)略游戲和機器人等領(lǐng)域。
什么是機器學習?
機器學習是一種數(shù)據(jù)分析方法,它可以自動分析模型的建筑。通過使用迭代學習數(shù)據(jù)的算法,機器學習可以使電腦在沒有被明確編程看哪里的情況下,發(fā)現(xiàn)隱藏的領(lǐng)域。
迭代在機器學習中是非常重要的,由于它的存在,模型在遇到新的數(shù)據(jù)時,就可以獨立地適應數(shù)據(jù)。它們可以從先前產(chǎn)生的可靠計算,重復的決定和結(jié)果中進行學習。機器學習并不是一個全新的學科-而是獲得新動力的學科。
由于新型計算技術(shù)的產(chǎn)生,如今的機器學習與以往大不相同。盡管很多機器學習算法已經(jīng)存在了很長時間,但自動將復雜的數(shù)學計算應用到大數(shù)據(jù)的能力(一個又一個,越來越快)是最新的進展。下面這些廣泛宣傳的機器學習應用程序的例子,你可能非常熟悉:
·大量的炒作,Google自動駕駛汽車?機器學習的本質(zhì)。
·像Amazon和Netflix的在線推薦服務?機器學習在日常生活中的應用
·知道客戶在Twutter上說了什么關(guān)于你的事嗎?機器學習與語言規(guī)則創(chuàng)造結(jié)合。
·欺詐檢測?在我們現(xiàn)今生活中,一個更明顯的,重要的用途。
為什么越來越多人對機器學習感興趣?
人們在機器學習方面興趣的復興,也是由于同樣的因素,即數(shù)據(jù)挖掘和貝葉斯分析比以往更受歡迎。在類似數(shù)量增長和可用數(shù)據(jù)這方面,計算處理更實惠,更強大,且負擔得起數(shù)據(jù)存儲。
以上所有的因素都暗示著:機器學習可以更快且自動的產(chǎn)生模型,以分析更大,更復雜的數(shù)據(jù),而且傳輸更加迅速,結(jié)果更加精準——甚至是在非常大的規(guī)模中。結(jié)果是?在現(xiàn)實中無人類干涉時,高價值( High-value)的預測可以產(chǎn)生更好的決定,和更明智的行為。
自動模型的建立是在現(xiàn)實中生成明智行動的一大關(guān)鍵。分析思想領(lǐng)袖Thomas H. Davenport在華爾街日報上寫道,日新月異,不斷增長的數(shù)據(jù),"…你需要快速移動的建模流( fast-moving modeling streams)來保持。"而你可以通過機器學習做到這些。他還說道"人類通常一周可以創(chuàng)建一個或兩個好的模型;而機器學習一周就可以創(chuàng)造出成千上萬的模型."
機器學習如今的應用情況如何?
你曾經(jīng)是否好奇過,一個在線零售商是如何瞬時的為您提供可能感興趣產(chǎn)品的報價嗎?或貸款人如何對你的貸款請求提供近實時的答復?我們的許多日常活動都是由機器學習算法驅(qū)動的,包括:
機器學習中最流行的學習方法有哪些?
被最廣泛采納的兩大機器學習方法是監(jiān)督學習( supervised learning )和無監(jiān)督學習(unsupervised learning)。大多數(shù)的機器學習(大概70%)是監(jiān)督學習。無監(jiān)督學習大概占10%-20%。有時也會使用半監(jiān)督和強化學習這兩個技術(shù)。
·監(jiān)督學習 算法利用標簽實例進行訓練,就像已知所需輸出的輸入。例如,一個設(shè)備可以有的數(shù)據(jù)點標記為“F”(失?。┗?ldquo;R”(運行)。學習算法收到了一系列有著對應正確輸出的輸入,且算法通過對比實際輸出和正確輸出進行學習,以找出錯誤。然后相應的進行模型修改。通過分類,回歸,預測和梯度提高的方法,監(jiān)督學習使用模式來預測額外的未標記數(shù)據(jù)的標簽的值。監(jiān)督學習被普遍應用于用歷史數(shù)據(jù)預測未來可能發(fā)生的事件。例如,它可以預測,什么時候信用卡交易可能是欺詐性的,或哪個保險客戶可能提出索賠。
·無監(jiān)督學習使用無歷史標簽的相反數(shù)據(jù)。系統(tǒng)不會被告知“正確答案”。算法必須搞明白被呈現(xiàn)的是什么。其目標是探索數(shù)據(jù)并找到一些內(nèi)部結(jié)構(gòu)。無監(jiān)督學習對事務性數(shù)據(jù)的處理效果很好。例如,它可以識別有相同屬性的顧客群(可以在市場營銷中被一樣對待)?;蛘咚梢哉业街饕獙傩詫⒖蛻羧罕舜藚^(qū)分開。流行的技術(shù)包括自組織映射(self-organizing maps),最近鄰映射( nearest-neighbor mapping),k-均值聚類(k-means clustering )和奇異值分解(singular value decomposition)。這些算法也用于段文本主題,推薦項目,和確定數(shù)據(jù)異常值。
·半監(jiān)督學習的應用和監(jiān)督學習相同。但它同時使用了標簽和無標簽數(shù)據(jù)進行訓練-通常情況下是少量的標記的數(shù)據(jù)與大量的未標記的數(shù)據(jù)(因為未標記的數(shù)據(jù)并不昂貴,且只需要較少的努力就可獲得)。這種類型的學習可以使用的方法,如分類,回歸和預測。當一個完全標記的培訓過程,其相關(guān)標簽的成本太高時,就要用到半監(jiān)督學習。其中早期的例子包括在網(wǎng)絡(luò)攝像頭上識別一個人的臉。
·強化學習經(jīng)常被用于機器人,游戲和導航。通過強化學習,該算法通過試驗和錯誤發(fā)現(xiàn)行動產(chǎn)生的最大回報。這種類型的學習有三個主要組成部分:代理(學習者或決策者),環(huán)境(一切的代理交互)和行動(什么是代理可以做的)。其目標是代理選擇的行動,可以在一個給定的時間內(nèi)最大化預期獎勵。通過一個好的策略,代理將更快地達到目標。因此,強化學習的目標是學習最好的策略。
數(shù)據(jù)挖掘、機器學習和深度學習之間的區(qū)別是什么?
機器學習與其它統(tǒng)計和學習方法的不同之處,如數(shù)據(jù)挖掘,是辯論的另一個熱門話題。簡單來說,雖然機器學習使用了許多與數(shù)據(jù)挖掘相同的算法和技術(shù),但其中有一個區(qū)別在于這兩個學科的預測:
·數(shù)據(jù)挖掘是發(fā)現(xiàn)以前未知的模式和知識。
·機器學習是用來重現(xiàn)已知的模式和知識,自動應用到其他數(shù)據(jù),然后自動的將這些結(jié)果應用到?jīng)Q策和行動。
目前電腦的能力逐漸增強也刺激著數(shù)據(jù)挖掘進化用于機器學習。例如神經(jīng)網(wǎng)絡(luò)很長一段時間內(nèi)被用于數(shù)據(jù)挖掘應用。隨著計算能力的增加,你可以創(chuàng)建許多層神經(jīng)網(wǎng)絡(luò)。在機器學習語言中,這些被稱為“深度神經(jīng)網(wǎng)絡(luò)”。正是計算能力的提升確保了自動學習快速的處理很多神經(jīng)網(wǎng)絡(luò)層。
進一步說,人工神經(jīng)網(wǎng)絡(luò)(ANN)是簡單的基于我們對大腦理解的一組算法。ANNs可以-在理論上-模擬數(shù)據(jù)集中任何種類的關(guān)系,但在實踐中要從神經(jīng)網(wǎng)絡(luò)得到可靠的結(jié)果,是非常棘手的。人工智能的研究可以追溯到20世紀50年代——被神經(jīng)網(wǎng)絡(luò)的成功和失敗打上了標簽。
如今,一個被稱為“深度學習”的新神經(jīng)網(wǎng)絡(luò)研究領(lǐng)域,在許多過去人工智能方法失敗的領(lǐng)域,取得了巨大的成功。
深度學習結(jié)合了計算能力和特殊類型的神經(jīng)網(wǎng)絡(luò),在大量的數(shù)據(jù)中學習復雜的模式。深度學習技術(shù)目前在識別圖像中的目標和聲音中的單詞方面效果最好。研究人員現(xiàn)在正在尋找方法,將這些成功的模式識別到更復雜的任務,如自動語言翻譯,醫(yī)療診斷和許多其他重要的社會以及商業(yè)問題。
機器學習的算法和過程
算法
SAS的圖形用戶界面,可以幫助你建立機器學習模型,并實現(xiàn)一個迭代機器學習的過程。不要求你是一個高級的統(tǒng)計師。我們可以綜合選擇機器學習算法幫助你快速的從大數(shù)據(jù)中獲取價值,包括許多SAS產(chǎn)品。SAS的機器學習算法,包括:
工具和過程
正如我們現(xiàn)在所知道的,它不僅僅是算法。最終,從你的大數(shù)據(jù)中獲得最大價值的秘密在于,將最好的算法與手頭的任務配對:
SAS機器學習的經(jīng)驗和專業(yè)知識
SAS不斷尋找和評估新方法。他們在實施統(tǒng)計方法,以最恰解決你面臨的問題方面有著悠久的歷史。他們將統(tǒng)計和數(shù)據(jù)挖掘方面豐富的,復雜的遺產(chǎn)與最新的,最先進的結(jié)構(gòu)結(jié)合,以確保您的模型盡可能快的運行(甚至是在巨大的企業(yè)環(huán)境中)。
我們明白,快速的時間值不僅意味著快速,自動化模型的性能,還包括在平臺之間數(shù)據(jù)移動所需要的時間——尤其針于大數(shù)據(jù)。高性能,分布式的分析技術(shù),受益于結(jié)合Hadoop,和所有主要數(shù)據(jù)基礎(chǔ)的大規(guī)模并行處理。您可以快速地循環(huán)建模過程的所有步驟——在沒有移動數(shù)據(jù)的情況下。