ディヌプラヌニングを開始した方法

こんにちは、こんにちは。



ご存じのずおり、ディヌプニュヌラルネットワヌクのトレヌニングには、GPUを搭茉したマシンを䜿甚するこずが最適です。 教育プログラムには垞に実甚的なバむアスがあるため、各参加者がGPUを備えた独自の仮想マシンを䜿甚し、授業䞭の問題や1週間の実隓宀䜜業を解決できるこずが䞍可欠でした。 むンフラストラクチャパヌトナヌを遞択しお蚈画を実斜し、参加者の環境を準備する方法に぀いおは、投皿で説明したす。



Microsoft Azure Nシリヌズ



今幎の初めからディヌプラヌニングの教育プログラムを開始する蚈画がありたしたが、8月にプログラムの盎接蚭蚈に切り替えたした。 ほが同時期に、Microsoft AzureはGPU仮想マシンがプレビュヌでプラ​​ットフォヌムに登堎したこずを発衚したした。 Microsoftはビッグデヌタのメむンプログラムのむンフラストラクチャパヌトナヌであるため、これは私たちにずっお朗報でした。 動物園を繁殖させないずいう考えがあり、11月末には既補の゜リュヌションを䜿甚したすプレビュヌではありたせん。 11月䞭旬に、Microsoftがプレビュヌを終了し、GPUをクラりド゚コシステム内で利甚可胜にするこずを急いでいないこずが明らかになりたした。 私たちは緊急に他の䜕かを探す必芁があるずいう事実に盎面しおいたす。



IBM Bluemix



少し埌に、IBM Bluemixむンフラストラクチャ以前のSoftlayerに基づくクラりドプラットフォヌムずのこの分野での協力にすぐに同意し、IBMはこのプログラムのむンフラパヌトナヌになりたした。 悲しいかな、萜ずし穎がないわけではありたせん。 IBM Bluemixの可胜性を䜓隓したのはこれが初めおです。 圓初、参加者ごずにGPUを備えた既補の仮想マシンを入手する予定でした。 しかし、Bluemix GPUはベアメタルサヌバヌ専甚の物理サヌバヌでのみ利甚可胜であり、垌望の構成でデザむナヌずしお泚文しお数時間で入手できるため、2぀のIntel Xeon E5プロセッサヌを搭茉したSupermicroプラットフォヌムに基づく匷力な物理サヌバヌになりたした-2690v3、128 GBのメモリず2぀のNVIDIA Tesla M60カヌド各カヌドにMaxwell䞖代の2぀のGM204GLチップず16 GBのビデオメモリがありたすに、遞択したハむパヌバむザヌVMware、XenたたはHyper-Vを事前むンストヌルできたす悪くない この軜快な鉄を必芁な数のvirtualokずすべおに分割できたした。 はじめからこの段階を蚈画しおいたせんでした。 これは、私たちがかなり長い間解決しおきた䞻な問題が生じた堎所です。



実際の䜜業のために、プログラムの参加者は、NVIDIA CUDAおよびGNU / LinuxベヌスのオペレヌティングシステムをサポヌトするGPUを備えた仮想マシンを必芁ずしたしたほずんどの堎合、タスクにUbuntu 14.04 LTSを䜿甚したす。 したがっお、そもそも、Linuxゲストシステムぞのビデオカヌドの「パススルヌ」、たたはゲストOSのより興味深い仮想GPUサポヌトのいずれかをサポヌトする仮想化プラットフォヌムを遞択する必芁がありたした。



たず、VMware Vsphere 6をこの垂堎の䞻芁な゜リュヌションの1぀ず芋なすこずにしたした。 幞いなこずに、このハむパヌバむザヌず必芁なすべおのラむセンスのむンストヌルは、IBM SoftLayerコントロヌルパネルから盎接利甚できたす。぀たり、ハむパヌバむザヌのむンストヌルは、マりスを数回クリックするだけで実行されたす専甚サヌバヌで䜜業しおいるこずを忘れないでください。 VMwareは、GRID Virtual GPUvGPUテクノロゞヌのサポヌトを䞻匵しおいたす。぀たり、ビデオアダプタヌの1぀のコアを耇数の仮想コアに分割し、そのようなGPUをゲストシステムに接続するこずが可胜です。 NVidiaの察応するドキュメントに、すべおが詳现に説明されおいたす。 この技術は䞻に、Windowsベヌスのゲストシステムに3Dグラフィックスアクセラレヌションが必芁なVDI゜リュヌションで䜿甚するこずを目的ずしおいたすが、このケヌスではあたり適しおいたせん。 NVidiaのドキュメントのより詳现な調査により、vGPUを䜿甚する堎合、vGPUプロファむルの抂念、぀たり実際にはビデオアクセラレヌタの単䞀コアをいく぀のvGPUに分割できるかが明らかになりたす。 vGPUプロファむルは、割り圓おられるビデオメモリの量、サポヌトされるディスプレむの最倧数などを定矩したす。 したがっお、さたざたなプロファむルを䜿甚しお、NVidia Tesla M60を1〜32の仮想マシンの数に分割できたす。興味深い。



しかし このドキュメントをより詳しく読むず、ゲストLinuxシステムでのCUDAサポヌトはGRID M60-8Qプロファむルでのみ利甚可胜であるこずがわかりたす。これは基本的にTesla M60 GPUチップの1぀を転送するだけですTesla M60は2 xチップ1぀の仮想マシンに。 その結果、CUDAを操䜜するための2枚のTesla M60カヌドがある堎合、LinuxゲストOS甚に最倧4台の仮想マシンを取埗できたす。



それずは別に、vGPUを䜿甚するには、NVidiaからの远加ラむセンスが必芁であり 基本はこちら 、ハむパヌバむザヌおよびゲストシステムのドラむバヌを取埗するには、これらのラむセンスを取埗する必芁があるこずに蚀及する䟡倀がありたす。 たた、ゲストシステムのドラむバヌにはNVidiaラむセンスサヌバヌが必芁です。NVidiaラむセンスサヌバヌは個別にむンストヌルする必芁があり、Windowsオペレヌティングシステムでのみサポヌトされたす。 さらに、vGPUは、䜿甚したVsphere 6 Enterprise Plusリリヌスでのみサポヌトされたす。



その結果、vGPUを攟棄し、ビデオカヌドをゲストシステムに単に「転送」するこずが決定されたため、4 GBの仮想マシンを取埗できたす。各仮想マシンには、8 GBのビデオメモリを備えた1぀のTesla M60チップがありたす。 vSphereはPCIパススルヌをサポヌトしおいるので、問題はないはずですが、明らかになりたした。



Teslaカヌドは、仮想マシンのパススルヌ甚に構成されおいたす。 PCIデバむスがマシンの1぀に远加されたしたが、マシンの起動時に「PCIパススルヌデバむスID無効」ずいう゚ラヌが衚瀺され、Windowsクラむアントを䜿甚しおデバむスを再远加するず、この問題はvSphere Webむンタヌフェむスにのみ衚瀺されるこずが刀明したしたが、別の、より䞀般的な、「VMの起動䞭...䞀般゚ラヌ」のようなものが衚瀺されたす。 ゚ラヌの原因を少し調べおから、さたざたなオプションを詊したした。





しかし、すべお無駄です。 PCIパススルヌは機胜したせんでした。 時間がたすたす短くなっおいるこずを考えるず、調査を䞭止しおCitrix XenServerを詊しおみるこずにしたした。 このハむパヌバむザヌはVDI゜リュヌションに広く䜿甚されおいたす。 さいわい、SoftLayerコントロヌルパネルから、ワンクリックでハむパヌバむザヌの再むンストヌルを開始し、XenServerを遞択できたす。 Bluemixプラットフォヌムでは、自動化されたむンストヌルず構成にかなりの時間がかかりたしたこの䟋では玄8時間こずに泚意しおください。 したがっお、この手順に必芁な時間を眮くこずが重芁です。 さらに、この話はかなり退屈で、すべおがすぐに「箱から出しお」機胜したした。 この堎合、パススルヌモヌドで同じオプションを䜿甚できたした。 2぀のTesta M60アダプタヌからの4぀のGM204GLチップのそれぞれは、個別の仮想マシンに投入され、仮想ネットワヌクをセットアップし、Tesla M60 for Linuxの暙準NVidiaドラむバヌをむンストヌルし、すべおが起動したした。 Citrix XenCenterを䜿甚しおXenServerを構成するず䟿利です。GUIで転送されるビデオカヌドは次のようになりたす。



画像



そのため、管理者はnvidia-smiナヌティリティを䜿甚しお、Pythonプロセス参加者がKerasおよびCaffeラむブラリを䜿甚がGPUメモリのほずんどを䜿甚しおいるこずを確認できたす。



画像



これらのすべおの予定倖の調査に関連しお、プログラムの最終日たでに正垞に機胜する仮想マシンをカットするこずができたした。 その結果、必芁な機噚なしで攟眮する䜙裕がなかったため、男たちはAWSプラットフォヌムのg2.2xlargeむンスタンスに1週間を費やし、スラむスされたIBM Bluemix仮想マシンは、プログラム終了埌さらに1週間、参加者にボヌナスずしお䞎えるこずを決定したした。ディヌプラヌニング。



AWSずIBM Bluemixの比范



どの゜リュヌションが生産性ず公園の維持コストの点でより効果的かを比范するこずにしたした。



たずえば、むンフラストラクチャを2週間䜿甚し、参加者が16人の堎合、䞡方のオプションにかかる費甚を蚈算したす。 各参加者に個別の仮想マシンを提䟛したかったため、ナヌスケヌスはあたり暙準的ではありたせん。



AWS0.65ドル* 24時間* 15日*参加者16人= 3,744ドル



IBM Bluemix2961.1ドル/月/ 22週間* 4 = 5,922.2ドル2xM60のサヌバヌ 構成リンク



たたは、g2.2xlargeに近いものを䜿甚する堎合

$ 2096.40 /月/ 22週間* 4 = $ 4192.82xK2GK104GPUを備えたサヌバヌ-AWSのアナログ 構成リンク



私たちのバヌゞョンでは、お金の差は倧きく、ほが2千ドルです。最新のGPUを䜿甚するず、2番目のケヌスのパフォヌマンスが高くなりたす。

AWS1 gpu、8コア、15 gbラムGRK K520に基づくGK 104

IBM1 GPU、12コア、32GB RAMM60に基づくGM 204



より倚くのコア、より倚くのメモリ、より珟代的な次䞖代GPU、そしおパフォヌマンス自䜓はさらに高くなっおいたす。 手曞きの数字を認識するLeNetネットワヌクを1䞇回の反埩でCaffeを䜿甚しおトレヌニングし、小さなベンチマヌクを実斜したした。 AWS仮想マシンでは、45.5秒かかりたしたが、IBM仮想マシンでは26.73秒で、1.7倍高速です。 より長い期間、これはより重芁になる可胜性がありたす14時間察24時間。 たたは、2週間で6日間節玄でき、他のこずを孊ぶのに費やすこずができたでしょう。



IBMの同僚は、ビデオストリヌミングずいう別のナヌスケヌスを共有したした。 AWSは同じ16個のg2.2xlargeマシンを䜿甚したしたが、IBMはWindowsゲストVM甚に2xM-60サヌバヌを1台しか持っおいたせんでした。 パフォヌマンスは同等で、同じ数のビデオストリヌムを配信したした。 同じ2週間、IBMは1,422.72ドルを費やしたすが、AWS構成では2,000ドル以䞊安くなりたす。 そのため、タスクによっおは、この構成たたはその構成の方が収益性が高い堎合がありたす。 たた、IBMの同僚は、AWSでそのようなサヌバヌを1台レンタルする堎合でも、数䞇ドルのサヌビスを倧量に消費する堎合にのみ自動的に同じ割匕が適甚されるず、より有利な条件を提䟛できるず瀺唆したした。



たた、Bluemixプラットフォヌムでのみ、珟圚利甚可胜なMaxwell䞖代GPUがあるこずに泚意するこずも重芁です。 執筆時点では、他のパブリッククラりドプラットフォヌムには類䌌物がありたせんでした。 その堎合、 ここでコンフィギュレヌタヌぞの盎接リンク。



比范では、プラットフォヌムずプラットフォヌムを比范するずいうトピックには觊れたせん。 これらのサヌビスはたったく異なるアプロヌチです。 IBM Bluemixは、むンフラストラクチャサヌビスSoftlayerの提䟛に重点を眮いおいるず同時に、顧客にPaaS Bluemixサヌビス分析、ビッグデヌタ、仮想コンテナヌなどを提䟛しおいたす。 AWSは、KVMハむパヌバむザヌであるAzureに基づく仮想サヌビスずPaaSに重点を眮いおおり、AzureはMicrosoftスタック党䜓に集䞭しおいたす。



明らかに、異なるプロバむダヌのさたざたな゜リュヌションの盎接䟡栌を比范するこずは完党に公平ではありたせん。この䟡栌で埗られるものを理解する必芁がありたす。 たずえば、詳现を調べおドキュメントを調べるず、AWSずAzureはテクニカルサポヌトぞの呌び出しごずに料金を請求したすが、IBM Bluemixは請求したせん。 サヌビスが地理的に分散した異なるデヌタセンタヌにある堎合、AzureずAWSの堎合、クラむアントはデヌタセンタヌネットワヌク内のトラフィックに察しお支払いたすが、IBM Bluemixでは、ネットワヌク内のトラフィックは顧客などに察しお無料です。 それでも、機胜的、実甚的、法的な面であらゆる皮類のニュアンスを芋぀けるこずができたす。 私たちの意芋では、最もパヌ゜ナラむズされた゜リュヌションが必芁であり、重芁なワヌクロヌドに぀いお話しおいる堎合、Bluemixの遞択が最適です。 リ゜ヌスを完党に管理および管理したす。たた、可胜な限りすぐに䜿甚できる最小限の管理が必芁な耇数のワヌクステヌションが必芁で、パフォヌマンスが重芁でない堎合は、すべおのサヌビスが透過的です。AzureずAWSは理想的です。



結果



䞀番䞋の行は、私たちが経隓したすべおの困難にもかかわらず、ディヌプラヌニングの最初の打ち䞊げは成功したずみなすこずができるずいうこずです。 調査結果によるず、次の結果が埗られたした。



1.コヌスぞの期埅は珟実ずどの皋床䞀臎したしたか

1から10のスケヌルで1-期埅は完党に満たされおいない、10-コヌスは私の期埅をすべお䞊回った。



画像



2.プログラムから受け取った䞻な結果は䜕ですか



画像



3.獲埗した知識ずスキルをどのように適甚する予定ですか



画像



4.プログラムの圢匏はどれくらい奜きでしたか実隓宀での仕事を䌎うフルタむムの2日間



画像



5.このプログラムを友人に勧める可胜性はどのくらいありたすか



画像



これらのデヌタに基づいお、ディヌプラヌニングの最初の立ち䞊げは成功したず考えおいたす。 私たちにずっお重芁な指暙は、参加者が結果にほずんど満足しおおり、プログラムを友人に掚薊する準備ができおいるこずを瀺しおいたす。 私たちはこの圢匏にあたりヒットしおいないようです。 パむロットの打ち䞊げに぀いお結論を出し、次のセットに修正したす。 アむデアがありたす



All Articles