国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: 發(fā)那科機器人  工業(yè)  上海  機器人  ABB機器人  自動化  工業(yè)機器人  工業(yè)機器人展  機器  展會 

為什么說“無監(jiān)督學習”才是深度學習的未來?

   日期:2017-07-24     來源:網(wǎng)易智能    作者:dc136     評論:0    
 為什么說“無監(jiān)督學習”才是深度學習的未來?
   我們已經(jīng)在之前的一篇文章中探討了神經(jīng)網(wǎng)絡(luò)和深度學習技術(shù),現(xiàn)在是時候討論深度學習的另一個主要組成部分了:數(shù)據(jù),即圖像,視頻,電子郵件,駕駛模式,短語,物體等等。
 
  令人驚訝的是,盡管我們的世界幾乎被數(shù)據(jù)所淹沒,但很大一部分是未經(jīng)標注未被整理過的,這意味著這些數(shù)據(jù)對于大多數(shù)目前的監(jiān)督式學習來說是不可用的。
 
  而深度學習尤其依賴于大量良好的、結(jié)構(gòu)化的、有標簽的數(shù)據(jù)。在我們“神經(jīng)網(wǎng)絡(luò)非數(shù)理化指南”的第二部分中,我們將研究為什么高質(zhì)量的、標記過的數(shù)據(jù)如此重要,它來自哪里,如何使用,以及近期會有什么樣的解決方案可以提供給我們制造的那些渴望學習的機器。
 
  監(jiān)督學習:讓我握住你的手
 
  在關(guān)于神經(jīng)網(wǎng)絡(luò)的文章中,我們曾解釋了如何通過精心制作的“香腸印刷機”(sausage
 
  press)將數(shù)據(jù)輸入給機器,這些印刷機能夠快速進行剖析、分析甚至自我精煉。
 
  這一過程被認為是監(jiān)督式學習,因為大量的數(shù)據(jù)被輸入到機器中,這些數(shù)據(jù)被事先煞費苦心地貼上了標簽。例如,要訓練一個神經(jīng)網(wǎng)絡(luò)來識別蘋果或橙子的圖片,就需要給這些圖片貼上標簽。機器可以通過識別所有被標記為蘋果或橙色的圖片來理解數(shù)據(jù),這些圖片有共同之處,因此機器最終可以利用這些已識別的圖片來更準確地預測新圖像中所出現(xiàn)的內(nèi)容。他們看到的標記數(shù)據(jù)越多,看到的數(shù)據(jù)集越大,就能更好地增進他們預測的準確性。
 
  這種方法在教機器學習視覺數(shù)據(jù)時很有用,還可以教機器如何識別從照片、視頻到圖形和書寫在內(nèi)的東西。一個明顯的優(yōu)勢是,在許多應用程序中,機器在圖像識別上做得甚至比人類還好。
 
為什么說“無監(jiān)督學習”才是深度學習的未來?
  比如,F(xiàn)acebook的深度學習軟件能夠?qū)⒁粡埬吧说膬蓮堈掌M行匹配,其準確性與人類相當(實際上97%的情況下要好于人類),而谷歌在今年早些時候推出了一種可以從醫(yī)學影像中探測腫瘤的神經(jīng)網(wǎng)絡(luò),它的準確性甚至高于醫(yī)師。
 
  無監(jiān)督學習:不需要監(jiān)護人指導就得出結(jié)論
 
  如你所預期,與監(jiān)督式學習相對應的是無監(jiān)督學習。這是指你松開系在機器上的皮帶,讓它潛入數(shù)據(jù)中,自主地進行發(fā)現(xiàn)和體驗,尋找模式和聯(lián)系,并得出結(jié)論,而不需要監(jiān)護人的指導。這項技術(shù)長期以來一直被一部分人工智能科學家們所批評,但在2012年,谷歌展示了一個深度學習網(wǎng)絡(luò),能夠從一大堆沒有標記過的圖片中破譯貓、人臉和其他物體。這項技術(shù)令人印象深刻,并帶來了一些極為有趣和有用的結(jié)果,但是,到目前為止,在任何方面無人監(jiān)督學習都達不到監(jiān)督學習的準確性和有效性。
 
  無處不在的數(shù)據(jù)
 
  這兩種方式的差異使我們進入了對一個更大、令人困惑的話題的探討。把這些機器比作人類嬰兒很有用。我們知道,只要讓我們的孩子放松,沒有指導他也會學習,但他學到的不一定是我們想要他學的東西,學習的方式也無法預測。
 
  但是,既然我們也通過教育來教孩子,那么我們就需要通過客觀上無窮多的話題使孩子暴露于大量物體和概念之中,我們需要教給孩子方向,動物和植物,重力和其他物理屬性,閱讀和語言,食物類型和元素等。事實上是所有存在的事物。隨著時間推移,所有這些幾乎都可以通過展示和講述活動以及回答年輕人無窮多得問題而被解釋。這些問題都是由任何好奇的年輕人提出的。
 
  這是一項浩大的工程,但所有父母和普通孩子身邊的人每天都在做著這樣的事情。神經(jīng)網(wǎng)絡(luò)有同樣的需求,但它的關(guān)注點通常更狹窄,我們也不太會與它進行社交,所以標簽需要更加精確。
 
  目前,人工智能研究人員和科學家可以采取很多方法來獲取數(shù)據(jù),以訓練他們的機器。第一種方法是走出去,自己收集大量的標簽數(shù)據(jù)。谷歌、亞馬遜、百度、蘋果、微軟和Facebook等公司的情況都是如此,有意思的事,這些企業(yè)都擁有令人驚嘆的海量數(shù)據(jù)——其中大部分都是由客戶免費提供的。如果想把所有這些數(shù)據(jù)都列出來,那就太愚蠢了;但應該考慮一下上傳到這些公司數(shù)據(jù)庫云存儲上的數(shù)十億條標記過的圖片。
 
  然后想想所有的文檔,通過語音、文本、照片和光學字符識別進行的搜索查詢,位置數(shù)據(jù)和地圖,評級、贊和分享,購物信息,快遞地址,電話號碼和聯(lián)系方式,地址簿和社交網(wǎng)絡(luò)。擁有這些資源的公司——以及任何規(guī)模龐大的公司——往往在機器學習中擁有獨特的優(yōu)勢,因為它們擁有豐富的特定類型的數(shù)據(jù)
 
  數(shù)據(jù)帶來的困難
 
  如果你碰巧沒有擁有一家擁有海量數(shù)據(jù)的財富100強公司,那么你就應該知道如何與他人分享。獲取大量多樣化數(shù)據(jù)是人工智能研究的一個關(guān)鍵部分。幸運的是,現(xiàn)在已經(jīng)有大量免費和公開的標簽數(shù)據(jù)集,涵蓋了各種各樣不同的類別。根據(jù)你所想,你可以找到顯示從人類面部表情和手語到公眾人物臉型和膚色的各種數(shù)據(jù)集。
 
  你還可以找到數(shù)以百萬計的關(guān)于人群、森林和寵物的圖片,這包括所有寵物的照片;你也可以通過篩選大量的用戶和顧客評論來獲得相關(guān)信息。此外,還有一些數(shù)據(jù)集,包括垃圾郵件、多種語言的推文、博客帖子和法律案例報告。
為什么說“無監(jiān)督學習”才是深度學習的未來?
  新的數(shù)據(jù)類型來自于世界上越來越多、無處不在的傳感器,比如醫(yī)療傳感器、運動傳感器、智能設(shè)備的陀螺儀、熱傳感器等等。還有就是人們給他們吃的食物、葡萄酒標簽和諷刺性標語等拍的照片。
 
  問題在哪里呢?
 
  盡管數(shù)據(jù)是如此之多,但事實證明許多數(shù)據(jù)都不是那么有用。要么是它們太小了,要么是不太好,要么是只有部分被貼上標簽,或者標簽貼的不合適,總之他們就是無法滿足你的需求。例如,如果你希望教會一臺機器識別圖像中的星巴克標志,你可能只能找到一個用來訓練的圖片數(shù)據(jù)庫,該數(shù)據(jù)庫可能被打上了“飲料”、“飲品”、“咖啡”、“容器”或人名“喬”,沒有正確的標簽,它們就沒有用處。
 
  一般的律師事務(wù)所或老牌公司在其數(shù)據(jù)庫中可能會有數(shù)百萬份合同或其他文書,但這些數(shù)據(jù)無法被使用,因為它們可能是被簡單地以未打過標簽的PDF格式保存的。在獲得最優(yōu)數(shù)據(jù)方面的另一個挑戰(zhàn)是確保所使用的訓練數(shù)據(jù)集數(shù)量夠大,并且是多樣化的。
 
  另外,在訓練一個復雜的模型,如深度神經(jīng)網(wǎng)絡(luò)時,使用小數(shù)據(jù)集可能會導致所謂的過度擬合,這是機器學習中一個常見的問題。實際上,過度擬合是由于大量可學習參數(shù)與訓練樣本有關(guān)聯(lián)導致的,這樣的參數(shù)充當了“神經(jīng)元”,我們在之前通過反向傳播對其進行了全面的調(diào)整。結(jié)果可以是一個能夠記住這些訓練數(shù)據(jù)的模型,而不是從數(shù)據(jù)中學習一般概念的模型。
 
  回想一下我們的蘋果-桔子網(wǎng)絡(luò)。因為作為訓練數(shù)據(jù)的蘋果圖像很少,而神經(jīng)網(wǎng)絡(luò)卻很龐大,我們很可能會讓網(wǎng)絡(luò)在特定細節(jié)上進行仔細的研究——紅色、棕莖,圓形,這些細節(jié)需要在訓練數(shù)據(jù)之間被準確地區(qū)別化。這些微小的細節(jié)可能會很好地描述訓練蘋果的圖片,但當測試中機器被要求識別一個新的蘋果時,這些細節(jié)可能就被證明是無關(guān)緊要,甚至是不正確的,因為在測試的時候,可能會有一個新的、機器之前未見過的蘋果。
 
  另一個重要的原則就是數(shù)據(jù)的多樣性,從統(tǒng)計學上來說,你所積累的數(shù)據(jù)越獨特,你的數(shù)據(jù)就越有可能更加多樣化。
 
  在“蘋果-桔子”的例子中,我們希望機器能有合理的概括能力,這樣它就能識別所有蘋果和桔子的圖像,不管這些蘋果桔子是否出現(xiàn)在訓練集中。
 
  畢竟,并不是所有的蘋果都是紅色的,如果我們只在紅色蘋果的圖片上訓練我們的網(wǎng)絡(luò),很有可能在測試時它是無法識別出綠色蘋果的。因此,如果在培訓中使用的數(shù)據(jù)類型是不全面的,無法囊括測試中所有的可能性,那么就會出現(xiàn)這樣的問題。在很多人工智能領(lǐng)域,以偏概全的問題已經(jīng)開始出現(xiàn)。神經(jīng)網(wǎng)絡(luò)和用來訓練它們的數(shù)據(jù)集反映了其制造者人群中的偏見。再一次,如果只用紅蘋果來訓練我們的蘋果-橘子網(wǎng)絡(luò),我們可能會讓機器具有偏見,認為蘋果只能是紅色的。
 
  如果類推到其他應用之中,比如面部識別,那么不全面數(shù)據(jù)帶來的影響就會變得非常明顯,就像老話說的那樣:“進來的是垃圾,出去的還是垃圾”
 
  制造一個可以獨立思考的捕鼠器
 
  缺少人力去標記數(shù)據(jù)是一個問題,這很昂貴?;蛘呷绻澜缟系乃泄径己鋈唤y(tǒng)一開放他們的數(shù)據(jù)資源,并心甘情愿地將其提供給全球的科學家,這樣一來缺乏好的訓練數(shù)據(jù)一事就不復存在了。
 
  與其朝著獲得盡可能多的數(shù)據(jù)這一目標努力,深度學習的未來可能會是朝著無監(jiān)督學習技術(shù)這一方向發(fā)展。
 
  如果我們想一想我們是如何教給嬰幼兒關(guān)于世界的知識時,這樣的做法就是有道理的;畢竟,盡管我們確實教會了孩子很多東西,但作為人類所做的最重要的學習,是經(jīng)驗,這是無人監(jiān)督的。
 
 
聲明:凡資訊來源注明為其他媒體來源的信息,均為轉(zhuǎn)載自其他媒體,并不代表本網(wǎng)站贊同其觀點,也不代表本網(wǎng)站對其真實性負責。您若對該文章內(nèi)容有任何疑問或質(zhì)疑,請立即與中國機器人網(wǎng)(www.baoxianwx.cn)聯(lián)系,本網(wǎng)站將迅速給您回應并做處理。
電話:021-39553798-8007
更多>相關(guān)專題
0相關(guān)評論

推薦圖文
推薦專題
點擊排行
?