熱搜： 發(fā)那科機器人工業(yè) 上海機器人自動化 ABB機器人工業(yè)機器人工業(yè)機器人展機器展會

想獨立開展深度學習研究，你準備好了嗎？

日期：2017-12-07 來源：AI前線作者：dc136 評論：0

　　深度學習是一門經(jīng)驗科學，具備優(yōu)質(zhì)的研發(fā)基礎架構通常能令科研團隊事半功倍。幸運的是，依托現(xiàn)有的開源生態(tài)，任何人都能構建出非常不錯的深度學習基礎架構。

　　在這篇文章中，我們會和大家分享如何開展深度學習的研究，也會一并介紹我們在研究中選用的基礎架構和開源技術 kubernetes-ec2-autoscaler，這是一種用于 Kubernetes 批處理任務的彈性伸縮管理器（batch-optimized scaling manager）。

　　用例

　　深度學習的演進通常源于一個能夠在小問題上被驗證的構想。在這個階段，你需要快速地進行大量隨機實驗。理想情況下，只需遠程登錄到一臺機器，運行一個腳本，不到一個小時就可以得到結果。

　　但是構建一個真正可用的模型通常會經(jīng)歷很多次失敗，需要我們不停地去修復這些缺陷。（這和其他新建的軟件系統(tǒng)一樣，你需要多次運行代碼才能判斷它是如何運轉的。）

　　你需要通過多個角度的計算來檢測模型，從而意識到它是如何學習的。Dario Amodei 的這種增強學習機制（控制右側的球拍）可以在擊球游戲中獲得很高的分數(shù)，但你會發(fā)現(xiàn)，游戲中右側的球拍完全沒有移動。

　　因此深度學習的基礎架構要能允許用戶靈活地反觀模型，僅僅展示一些統(tǒng)計結果是不夠的。

　　當模型表現(xiàn)出一定的應用前景，你會希望將它擴展到更大的數(shù)據(jù)集和更多的 GPU 上運行，但這會花費大量的時間。而且你需要認真地管理實驗并非常謹慎地去選擇超參數(shù)（hyperparameters）的范圍。

　　這種科研的過程在早期是快速且缺乏系統(tǒng)性的；到了后期，過程會逐漸有條理卻很耗費精力，但為了獲得完美的結果，這是必不可少的。

　　案例

　　論文 Improved Techniques for Training GANs 開篇講述了 Tim Salimans 對于如何改進生成對抗網(wǎng)絡（GAN）訓練機制的一些看法。我們會挑其中較簡單的一個進行介紹（這雖然不是最好的半監(jiān)督學習案例，但它生成了最好看的樣本）。

　　GANs 由一個生成器網(wǎng)絡和一個鑒別器網(wǎng)絡構成。生成器會不停地去干擾鑒別器，而鑒別器會盡力地將生成器造出的數(shù)據(jù)和真實數(shù)據(jù)區(qū)分開來。通常來說，判斷生成器的好壞，看它能不能騙過所有鑒別器就行了，但難題仍然存在：如果生成器一直輸出完全相同的（幾乎和真實的一樣）樣本會造成網(wǎng)絡的崩潰。

　　Tim 提出可以用小批次的樣本數(shù)據(jù)代替原先的一整個樣本提供給鑒別器。這樣鑒別器就可以判斷生成器是否一直在傳同樣的圖像。當“崩潰”發(fā)生時，生成器將會進行梯度調(diào)整來修正這個問題。

　　下一步就是基于 MNIST 和 CIFAR-10 將構想轉化為原型。這需要快速地構建出一個初步的模型，然后運行真實的數(shù)據(jù)并檢測結果。在經(jīng)過幾次快速的迭代之后，Tim 得到了 CIFAR-10 的樣本，這次的結果十分振奮人心，幾乎是我們見過的在這個數(shù)據(jù)集上跑出的最好樣本了。

　　深度學習（以及常說的 AI 算法）如果要真正形成一定影響就必須擴大實驗規(guī)模，一個小型神經(jīng)網(wǎng)絡可以驗證概念，而大型的神經(jīng)網(wǎng)絡才能真正解決問題。因此 Ian Goodfellow 開始把模型擴展到 ImageNet 進行驗證。

　　模型學習生成 ImageNet 的圖像

　　有了更大的模型和數(shù)據(jù)集，Ian 就需要用更多的 GPU 來并行地運行模型。任務運行時機器的 CPU 和 GPU 利用率會飆升至 90%，但是即使這樣仍需要花費很多天才能完成模型訓練。在這種模式下，每一次實驗機會都顯得無比珍貴，他也會非常細致地記錄下每次實驗的結果。

　　雖然實驗最終得到了不錯的結果，但仍沒有達到我們的預期。為了找到原因我們做了很多嘗試，但仍然攻克不了。這大概就是科學的本質(zhì)吧。

　　基礎架構

　　軟件

　　TensorFlow 代碼的樣例

　　我們絕大部分的研究代碼是用 Python 完成的，詳細內(nèi)容可以在我們的開源項目中查看到。我們通常使用 TensorFlow（在特殊情況下也會使用 Theano）來進行 GPU 計算；使用 Numpy 或其他方法來進行 CPU 計算。研究人員有時也會使用更上層的框架，比如基于 TensorFlow 的 Keras。

　　和多數(shù)深度學習社區(qū)一樣，我們會使用 Python2.7。Anaconda 也經(jīng)常會用到，它可以方便地給 OpenCV 打包，并對一些科學算法庫進行性能優(yōu)化。

　　硬件

　　對于理想的批處理任務，將集群計算節(jié)點的數(shù)量翻倍會減半任務執(zhí)行時間。不幸的是，在深度學習中，GPU 數(shù)量的增加只會引起任務亞線性的加速。因此頂級的計算性能只能依靠頂級的 GPU 來實現(xiàn)。我們也使用了許多 CPU 用于構建模擬器、增強學習環(huán)境或是小規(guī)模的模型（這類模型跑在 GPU 上時運行效率不會有明顯的增加）。

　　nvidia-smi 下滿載的 Titan Xs

　　AWS 慷慨地為我們提供了大量計算資源。這些資源被用于 CPU 實例以及 GPU 任務的水平擴展。我們也有自己的物理機，用的是 Titan X GPU。我們期望之后可以使用混合云：對不同的 GPU、連接以及其他技術開展實驗是非常具有價值的，這對深度學習未來的發(fā)展也有著重要影響。

　　相同物理單元上的 htop 顯示了大量空閑的 CPU。我們通常將 CPU 密集型和 GPU 密集型的任務分開運行。

　　配置

　　我們對待基礎架構就像許多公司對待他們的產(chǎn)品一樣：它的界面必須簡潔，必須兼顧功能性和可用性。我們會使用一致的工具來統(tǒng)一管理所有服務器，并且盡可能地對他們進行相同的配置。

　　用于管理彈性伸縮組的 Terraform 配置文件片段。Terraform 可以創(chuàng)建、修改或銷毀正在運行的云資源來匹配配置文件。

　　我們使用 Terraform 來創(chuàng)建 AWS 的云資源（實例、網(wǎng)絡路由、DNS 記錄等）。我們的云端節(jié)點和物理節(jié)點都運行 Ubuntu 系統(tǒng)，并使用 Chef 來做配置。為了實現(xiàn)加速，我們使用 Packer 來預先制作集群鏡像（AMI）。我們的所有集群都使用非交叉的 IP 范圍，用戶可以通過筆記本上的 OpenVPN 及物理節(jié)點上的 strongSwan（AWS 的客戶網(wǎng)關）連接到公網(wǎng)。

　　最后，我們將用戶的 home 目錄、數(shù)據(jù)集和結果存儲在 NFS（基于物理硬件）和 EFS/S3（基于 AWS）上。

　　編排

　　可擴展的基礎架構通常會使原本簡單的用例復雜化。我們在對不同規(guī)模作業(yè)的基礎架構研究上投入了同等的精力，也在同步優(yōu)化工具套件，使得分布式的用例能像本地用例一樣好用。

　　我們?yōu)殡S機實驗提供了 SSH 節(jié)點的（有些有 GPU 有些沒有）集群，并且使用 Kubernetes 來調(diào)度物理節(jié)點和 AWS 節(jié)點。我們的集群橫跨 3 個 AWS 域——因為有時任務量會突然爆發(fā)，從而占滿單個區(qū)域的所有資源。

　　Kubernetes 要求每一個任務都是一個 Docker 容器，這樣就可以實現(xiàn)依賴隔離和代碼快照。但是創(chuàng)建一個新的 Docker 容器會增加迭代周期的時間，這個時間十分寶貴，所以我們也提供工具，將研究人員筆記本上的代碼轉成標準鏡像。

　　TensorBoard 中的模型學習曲線

　　我們將 Kubernetes 的 flannel 網(wǎng)絡直接暴露至研究人員的電腦，使用戶可以無縫訪問正在運行的任務。這對于訪問 TensorBoard 這類監(jiān)控服務特別有幫助。（為了實現(xiàn)絕對的隔離，我們最初要求針對每一個暴露的端口都要創(chuàng)建 Kubernetes 服務，但這樣會帶來很多困難。）

　　kubernetes-ec2-autoscaler

　　我們的任務負載具有突發(fā)性和不可預測性：原先只需要單節(jié)點的實驗可能很快就發(fā)展到需要 1000 個核。比如在幾周的時間里，實驗從只需要一個 Titan X 的交互階段發(fā)展到了需要 60 個 Titan X 的實驗階段，這需要將近 1600 個 AWS 的 GPU。因此，我們的云架構要能動態(tài)配置 Kubernetes 節(jié)點。

　　在彈性伸縮組中運行 Kubernetes 節(jié)點非常簡單，困難的是如何正確地配置這些組的規(guī)模。在提交批處理任務后，集群可以準確地知道它需要的資源并直接進行分配。（相反，AWS 的擴展策略會不斷地啟動新的節(jié)點碎片來提供足夠的資源，這是一個多次迭代的過程。）集群還需要在終止節(jié)點前進行任務遷移（drain）操作，避免丟失正在運行的任務。

　　很多人想直接使用原始的 EC2 來處理大批量的任務，我們一開始也是這么做的。但是 Kubernetes 的生態(tài)具有更多優(yōu)勢：比如易用的工具、日志記錄、監(jiān)控、從運行實例中區(qū)分管理物理節(jié)點的能力等。合理配置 Kubernetes 使其能夠正確地動態(tài)擴展要比在原始 EC2 上重建這種環(huán)境來的簡單。

　　我們發(fā)布的 kubernetes-ec2-autoscaler，是一種用于 Kubernetes 批處理任務的彈性伸縮管理器。它在 Kubernetes 上作為一個普通的 Pod 運行，且只要求你的工作節(jié)點運行在彈性伸縮組內(nèi)。

　　Kubernetes 集群的啟動配置

　　自動擴展器會輪詢 Kubernetes 主節(jié)點的狀態(tài)，包括用于計算集群所需資源和容量的所有信息。如果超出了容量，它會將相關節(jié)點的任務遷移（drain）后將其終止。如果需要更多的資源，它會計算需要創(chuàng)建什么樣的服務器并適當?shù)卦黾訌椥陨炜s組的規(guī)模（或直接解鎖（uncordon）執(zhí)行過 drain 操作的節(jié)點，來避免新節(jié)點增加的啟動時間）。

　　kubernetes-ec2-autoscaler 管理著多個彈性伸縮組、CPU 之外的資源（內(nèi)存和 GPU）以及對任務細粒度的約束，例如 AWS 區(qū)域和實例大小。另外，突增的負載會引起彈性伸縮組的超時和報錯，因為即使是 AWS 也不具備無限擴展的容量。這種情況下，kubernetes-ec2-autoscaler 會檢測到錯誤并將超出部分的任務分配到次級的 AWS 區(qū)域執(zhí)行。

　　我們的基礎架構設計旨在最大程度地提高科研人員的工作效率，使他們能夠?qū)Ｗ⒂诳蒲斜旧?。我們將繼續(xù)深入優(yōu)化基礎架構和工作流程，之后也會陸續(xù)和大家分享經(jīng)驗。我們期待與您的合作，共同促進深度學習的發(fā)展！

聲明：凡資訊來源注明為其他媒體來源的信息，均為轉載自其他媒體，并不代表本網(wǎng)站贊同其觀點，也不代表本網(wǎng)站對其真實性負責。您若對該文章內(nèi)容有任何疑問或質(zhì)疑，請立即與中國機器人網(wǎng)(www.baoxianwx.cn)聯(lián)系，本網(wǎng)站將迅速給您回應并做處理。
電話：021-39553798-8007

更多>相關專題

0 條相關評論

推薦圖文

機器人競選市長，是時	每日新聞迎來大批裁員
售價近3萬元的鼓掌機	“來自星星”的機器人

推薦專題

點擊排行

?

<thead id="1uutj"></thead><var id="1uutj"></var>

• 讓飛行機器人自我運動！一個設計類飛行機器人的	• IBM上線“深度學習即服務”項目幫助開發(fā)者縮短
• 谷歌大力招攬機器學習人才，AI野心十足	• 日本防衛(wèi)省研發(fā)人工智能用深度學習防御網(wǎng)絡攻
• 2018深度學習十大趨勢：元學習成新SGD，多數(shù)硬	• 深度學習之父闡述研究了40年的“舊想法”，或重
• 李飛飛新研究：基于深度學習和視覺化語言來了解	• 最強AlphaGo怎樣煉成？剛剛，DeepMind團隊進行
• 微軟小冰唱歌惹怒二次元，但深度學習和音樂的故	• 簡析AI：深度學習讓AI正在變得像人類一樣神秘

国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

想獨立開展深度學習研究，你準備好了嗎？