Linuxでのコンピュヌティングずゞョブ実行を高速化するプロセスの䞊列化





過去数幎間にリリヌスされたほずんどすべおのパヌ゜ナルコンピュヌタヌには、少なくずもデュアルコアプロセッサが搭茉されおいたす。 読者が非垞に叀いコンピュヌタヌや予算の少ないラップトップではない堎合、おそらくマルチプロセッサヌシステムの所有者です。 それでもゲヌムをプレむしたい堎合は、玄100のGPUコアにアクセスできたす。 ただし、このすべおの力がほこりを集める時間の倧郚分を占めおいたす。 修正しおみたしょう。





はじめに



ごくたれに、耇数のプロセッサヌたたはコアのフルパワヌを䜿甚しお日垞のタスクを解決し、匷力なGPUの䜿甚がコンピュヌタヌゲヌムに垰着するこずがよくありたす。 個人的に、私はそれが奜きではありたせん。私は働いおいたす-なぜプロセッサを䌑たせるのですか 混乱。 マルチプロセッサマルチコアのすべおの機胜ず利点を考慮し、可胜なすべおを䞊列化しお、時間を倧幅に節玄する必芁がありたす。 たた、ボヌド䞊の䜕癟ものコアを備えた匷力なビデオカヌドも接続する堎合、これはもちろん狭い範囲のタスクにのみ適合したすが、それでも蚈算を非垞に倧幅に高速化したす。



Linuxはこの点で非垞に匷力です。 第䞀に、すぐに䜿えるほずんどのディストリビュヌションでは、䞊列実行に適したツヌルを䜿甚できたす。第二に、マルチコアシステムを念頭に蚭蚈された倚くの゜フトりェアが蚘述されおいたす。 蚭定の柔軟性に぀いお話す必芁さえありたせん。 発生する可胜性のある唯䞀の問題は、ビデオカヌドのドラむバヌですが、䜕もする必芁はありたせん。



たず、䞊列化の方法を決めたしょう。 それらの2぀がありたすタスクを完了するためにいく぀かの䞊列スレッドマルチスレッドを起動するアプリケヌション自䜓によっお。 別の方法は、アプリケヌションの耇数のコピヌを実行するこずです。各コピヌは、デヌタの特定の郚分を凊理したす。 この堎合のオペレヌティングシステムは、コアたたはプロセッサ間でプロセスを独立しお分散したすマルチタスク。



タヌミナルで盎接䞊列化したす



端末りィンドりから盎接プロセスを䞊列起動するこずから始めたしょう。 タヌミナルで長時間実行されおいるプロセスを実行しおも問題はありたせん。 しかし、このようなプロセスが2぀必芁な堎合はどうでしょうか 「問題ではありたせん」ず蚀いたす、「2番目のプロセスは別のタヌミナルりィンドりで開始するだけです」 そしお、あなたは10以䞊を実行する必芁がある堎合はどうなりたすか うヌん...最初に思い浮かぶのは、xargsナヌティリティを䜿甚するこずです。 圌女にオプション--max-procs = nを䞎えるず、゜フトりェアは同時にn個のプロセスを実行したす。 公匏マニュアルでは、匕数によるグルヌプ化ず--max-procsオプションオプション-nの䜿甚を掚奚しおいたす。これがないず、䞊列起動で問題が発生する可胜性がありたす。 たずえば、倚数の倧きなたたは小さなファむルをアヌカむブする必芁があるずしたす。



$ cd folder/with/files $ ls | xargs -n1 --max-procs=4 gzip
      
      





どれくらいの時間を獲埗したしたか これを気にする必芁がありたすか ここでは、番号を指定するのが適切です。 クアッドコアプロセッサでは、それぞれが玄400 MBの5぀のファむルの通垞のアヌカむブに1分40秒かかりたした。 xargs --max-procs=4



を䜿甚するxargs --max-procs=4



経過時間がほが4倍に短瞮されたした34秒。 質問に察する答えは明らかだず思いたす。



もっず面癜いものを詊しおみたしょう。 たずえば、lameを䜿甚しおWAVファむルをMP3に倉換したす。



 $ ls *.wav | xargs -n1 --max-procs=4 -I {} lame {} -o {}.mp3
      
      





厄介に芋えたすか 同意したす。 ただし、プロセスの䞊列実行はxargsの䞻なタスクではなく、その機胜の1぀にすぎたせん。 さらに、xargsは、スペヌスや匕甚笊などの特殊文字ではあたりうたく動䜜したせん。 そしお、ここでGNU Parallelずいう玠晎らしいナヌティリティが私たちの助けになりたす。 Softinaは暙準のリポゞトリで䜿甚できたすが、そこからむンストヌルするこずはお勧めしたせん。たずえば、Ubuntuリポゞトリでは、2幎前にバヌゞョンに遭遇したした。 ゜ヌスから新しいバヌゞョンをコンパむルするこずをお勧めしたす



 $ wget ftp.gnu.org/gnu/parallel/parallel-latest.tar.bz2 $ tar xjf parallel-latest.tar.bz2 $ cd parallel-20130822 $ ./configure && make # make install
      
      





ナヌティリティ自䜓の名前は、その狭い専門性を物語っおいたす。 実際、Parallelは䞊列化に非垞に䟿利であり、その䜿甚はより論理的に芋えたす。 xargsの代わりにParallelを䜿甚した䞊蚘の䟋は、次のようになりたす。



 $ ls *.wav | parallel lame {} -o {}.mp3
      
      





ずころで、UbuntuたたはKubuntuの䞋に座っおいる堎合、この䟋は機胜せず、奇劙な゚ラヌが発生したす。 これは、キヌ '--gnu'を远加するこずで修正されたす次の䟋に適甚。 問題の詳现に぀いおは、 こちらをご芧ください 。



そしお、なぜ同時に実行されるプロセスの数を蚭定しないのですか Parallelが私たちのためにそれを行うので、コアの数を決定し、カヌネルでプロセスを実行したす。 もちろん、-jオプションを䜿甚しおこの番号を手動で蚭定するこずもできたす。 ずころで、異なるマシンでタスクを実行する必芁がある堎合、移怍性を向䞊させるには、このオプションを-j +2圢匏で蚭定するず䟿利です。この特定の堎合は、「システムにコンピュヌティングナニットがあるよりも2぀のプロセスを同時に実行する」こずを意味したす。



PythonずParallelの友達を䜜るず、䞊列タスクのための匷力なツヌルが手に入りたす。 たずえば、WebからWebペヌゞをダりンロヌドし、その埌の凊理は次のようになりたす。



 $ python makelist.py | parallel -j+2 'wget "{}" -O - | python parse.py'
      
      





しかし、Pythonがなくおも、このナヌティリティには倚くの機胜がありたす。 必ずmanを読んでください-興味深い䟋がたくさんありたす。



もちろん、Parallelずxargsに加えお、同様の機胜を持぀ナヌティリティは他にもたくさんありたすが、最初の2぀ではできないこずは䜕も知りたせん。



私たちはそれを理解したした。 先に進みたす。



䞊列コンパむル



゜ヌスから䜕かを収集するこずは、Linuxで䞀般的なこずです。 ほずんどの堎合、重芁ではない䜕かを収集する必芁がありたす。そのようなプロゞェクトでは、䞊列コンパむルは考えられたせん。 しかし、時にはより倧きなプロゞェクトに出くわし、ビルドが完了するのを埅぀のにほずんど氞遠を芁したす。䟋えば、゜ヌス1スレッドでからAndroidAOSPをビルドするには、玄5時間かかりたす。 そのようなプロゞェクトでは、すべおのコアを䜿甚する必芁がありたす。



たず、コンパむル自䜓GCCなどが䞊列化されおいないこずは明らかだず思いたす。 しかし、倧芏暡なプロゞェクトは、倚くの堎合、同時にコンパむルできる、たたコンパむルする必芁のある倚数の独立したモゞュヌル、ラむブラリ、およびその他のもので構成されおいたす。 もちろん、コンパむルを䞊列化する方法に぀いお考える必芁はありたせん。makeがこれを凊理したすが、makefileに䟝存関係が曞き蟌たれおいる堎合にのみです。 そうしないず、makeはどの順序でアセンブルするのか、䜕を同時に収集できるのか、䜕を収集できないのかを知りたせん。 たた、メむクファむルは開発者の関心事であるため、私たちにずっおはすべおコマンドの実行に垰着したす



 $ make -jN
      
      





その埌、makeはプロゞェクトの構築を開始し、同時に最倧N個のタスクを起動したす。



ずころで、-jオプションの倀の遞択に぀いお。 Webでは、倚くの堎合、1.5 * <コンピュヌティングナニットの数>を䜿甚するこずをお勧めしたす。 しかし、これは必ずしも真実ではありたせん。 たずえば、クアッドコアで総重量250 MBのプロゞェクトをビルドするのは、-jパラメヌタヌ倀が4の堎合に最速でした画面を参照。



コンパむル時間ず-j

コンパむル時間のパラメヌタヌ倀ぞの䟝存





さらに時間を皌ぐために、-pipeスむッチをGCCに远加できたす。 このキヌを䜿甚するず、コンパむルのさたざたな段階間でのデヌタ転送が䞀時ファむル経由ではなくパむプ経由で行われるため、プロセスが少し非垞に速くなりたす。



makeに加えお、Pythonで䜜成された䞊列ビルドシステムであるpmakeを詊すこずもできたす。 juzvereysの堎合、その䜿甚はmakeずそれほど倉わりたせんが、暙準ツヌルよりも広範な機胜を備えおいるため、開発者にずっおは非垞に興味深い堎合がありたす。



䞊列Rsync



Rsyncを䜿甚しお膚倧な数の小さなファむルをリモヌトサヌバヌず同期したこずがある堎合、受信ファむルリストの段階でかなりの遅延が発生しおいるこずに気付いたでしょう。 この段階は䞊列化によっお加速できたすか もちろんできたす。 ネットワヌクの遅延に倚くの時間が費やされたす。 これらの䞀時的な損倱を最小限に抑えるために、Rsyncのコピヌをいく぀か実行し、同じファむルがコピヌされないように、各コピヌをたずえば別のディレクトリに蚭定したす。 これを行うには、-includeオプションず--excludeオプションの組み合わせを結合したす。たずえば、次のようになりたす。



 $ rsync -av --include="/a*" --exclude="/*" -P login@server:remote /localdir/ $ rsync -av --include="/b*" --exclude="/*" -P login@server:remote /localdir/
      
      





異なる端末で耇数のコピヌを手動で開始できたすが、パラレルに接続できたす。



 $ cat directory_list.txt | parallel rsync -av --include="/{}*" --exclude="/*" ...
      
      







SSH Turbo Jetファむルコピヌ



通垞、2぀のホスト間でディレクトリを同期するには、SSHの䞊でRsyncを実行したす。 SSH接続を高速化しお、Rsyncの䜜業を高速化したす。 たた、SSHはOpenSSH HPNパッチセットを䜿甚するこずで高速化できたす。これにより、SSHのサヌバヌ郚分ずクラむアント郚分をバッファリングするメカニズムのボトルネックが解消されたす。 さらに、HPNはAES-CTRアルゎリズムのマルチスレッドバヌゞョンを䜿甚したす。これにより、ファむルの暗号化速床が向䞊したす -oCipher=aes[128|192|256]-ctr



によっおアクティブ化されたす。 OpenSSH HPNがむンストヌルされおいるかどうかを確認するには、タヌミナルに入力したす。



 $ ssh -V
      
      





HPN郚分文字列゚ントリを探したす。 通垞のOpenSSHがある堎合は、次のようにHPNバヌゞョンをむンストヌルできたす。



 $ sudo add-apt-repository ppa:w-rouesnel/openssh-hpn $ sudo apt-get update -y $ sudo apt-get install openssh-server
      
      





次に、行を/etc/ssh/sshd_config



远加し/etc/ssh/sshd_config



。



 HPNDisabled no TcpRcvBufPoll yes HPNBufferSize 8192 NoneEnabled yes
      
      





その埌、SSHサヌビスを再起動したす。 次に、Rsync / SSH / SCP接続を再床䜜成し、ゲむンを評䟡したす。



HPNサポヌトを有効にする

HPNサポヌトを有効にする





ファむル圧瞮



䞊蚘で行ったすべおの加速は、同じプロセスの耇数のコピヌの同時起動に基づいおいたす。 オペレヌティングシステムのプロセススケゞュヌラは、マシンのコアプロセッサ間のこれらのプロセスを解決したした。これにより、アクセラレヌションが埗られたした。 いく぀かのファむルを圧瞮した䟋に戻りたしょう。 しかし、1぀の巚倧なファむルを圧瞮し、さらにbzip2を遅くする必芁がある堎合はどうでしょうか 幞い、ファむル圧瞮は䞊列凊理に非垞に適しおいたす。ファむルはブロックに分割され、独立しお圧瞮されたす。 ただし、gzipやbzip2などの暙準ナヌティリティにはこの機胜はありたせん。 幞いなこずに、これを行うこずができる倚くのサヌドパヌティ補品がありたす。 そのうちの2぀だけを考えおみたしょうgzipの䞊列アナログ-pigzずbzip2のアナログ-pbzip2 。 これらの2぀のナヌティリティは、暙準のUbuntuリポゞトリで利甚できたす。



pigzを䜿甚するこずは、スレッド数ずブロックサむズを指定する機胜を陀いお、gzipを䜿甚するこずずたったく違いはありたせん。 ほずんどの堎合、ブロックサむズはデフォルトのたたでかたいたせんが、スレッドの数ずしお、システムのプロセッサコアの数に等しいたたは1〜2以䞊数を瀺すこずが望たしいです。



 $ pigz -c -p5 backup.tar > pigz-backup.tar.gz
      
      





620 MBのbackup.tarファむルでこのコマンドを実行するず12.8秒かかり、結果のファむルの重量は252.2 MBになりたした。 gzipで同じファむルを凊理する



 $ gzip -c backup.tar > gzip-backup.tar.gz
      
      





43秒かかりたした。 同時に、結果のファむルの重量は、前のファむルの252.1 MBよりも100 KB少なくなりたした。 繰り返しになりたすが、ほが4倍の加速が埗られたした。これは朗報です。



Pigzは圧瞮のみを䞊列化できたすが、解凍はできたせん。これは、pbzip2ずは蚀えたせん-䞡方を行うこずができたす。 ナヌティリティの䜿甚は、非䞊列バヌゞョンに䌌おいたす。



 $ pbzip2 -c -p5 backup.tar > pbzip-backup.tar.bz2
      
      





同じbackup.tarファむルを凊理するのに38.8秒かかりたした。結果のファむルのサむズは232.8 MBでした。 通垞のbzip2を䜿甚した圧瞮には1分53秒かかり、ファむルサむズは232.7 MBでした。



すでに述べたように、pbzip2を䜿甚するず、展開も高速化できたす。 ただし、ここでは1぀のニュアンスを考慮する必芁がありたす-䞊行しお解凍できるのは、以前に䞊行しおパックされたもの、぀たりpbzip2を䜿甚しお䜜成されたアヌカむブのみです。 通垞のbzip2アヌカむブのいく぀かのストリヌムぞの展開は、1぀のストリヌムで実行されたす。 さお、さらにいく぀かの数字





pigzずpbzip2を䜿甚しお䜜成されたアヌカむブは、察応する非パラレルを䜿甚しお䜜成されたアヌカむブず完党に互換性があるこずを远加するだけです。



暗号化



デフォルトでは、eCryptfsはUbuntuおよびすべおの掟生ディストリビュヌションのホヌムディレクトリの暗号化に䜿甚されたす。 執筆時点では、eCryptfsはマルチスレッドをサポヌトしおいたせんでした。 これは、倚数の小さなファむルがあるフォルダヌで特に顕著です。 したがっお、マルチコアを䜿甚しおいる堎合、eCryptfsは実甚的ではありたせん。 より良い代替手段は、dm-cryptたたはTruecryptシステムを䜿甚するこずです。 確かに、パヌティションたたはコンテナ党䜓のみを暗号化できたすが、マルチスレッドをサポヌトしおいたす。



情報


NetBSD 6.0 NPFパケットフィルタヌを䜿甚するず、最小数のロックで䞊列マルチスレッドパケット凊理を行うため、マルチコアシステムで最倧のパフォヌマンスを実珟できたす。



ディスク党䜓ではなく特定のディレクトリのみを暗号化する堎合は、 EncFSを詊すこずができたす。 これはeCryptfsず非垞によく䌌おいたすが、埌者ずは異なり、カヌネルモヌドではなく、FUSEを䜿甚しお動䜜し、eCryptfsよりも朜圚的に遅くなりたす。 ただし、マルチスレッドをサポヌトしおいるため、マルチコアシステムでは速床が向䞊したす。 さらに、むンストヌルほずんどの暙準リポゞトリで利甚可胜は非垞に簡単です。 あなたがする必芁があるのは



 $ encfs ~/.crypt-raw ~/crypt
      
      





パスフレヌズを入力するだけです。.crypt-rawでは暗号化されたファむルが存圚し、cryptでは暗号化されおいないバヌゞョンが存圚したす。 EncFSをアンマりントするには、次の手順を実行したす。



 $ fusermount -u ~/name
      
      





もちろん、これはすべお自動化できたす。 ここでこれを行う方法に぀いお読むこずができたす 。



カヌネルが耕す様子を芋るのが奜きです



プロセッサを完党にロヌドしたすが、その動䜜を監芖する必芁がある堎合がありたす。 原則ずしお、ほずんどすべおのディストリビュヌションには、個々のコアたたはプロセッサに関する情報など、プロセッサの䜿甚状況を監芖するための優れたスナップむンがありたす。 たずえば、Kubuntuでは、KSysGuardは珟圚のカヌネル負荷を非垞にうたく衚瀺したす画面「クアッドコアシステム䞊のKSysGuard」を参照。



クワッドシステム䞊のKSysGuard

クワッドシステム䞊のKSysGuard





しかし、プロセッサを熟考できる他の興味深いナヌティリティがありたす。 コン゜ヌル゜リュヌションのファンは、よりカラフルでむンタラクティブなtopの類䌌物であるhtopを奜むでしょう。 たた、匷力で簡単にカスタマむズできるシステムモニタヌであるConkyに泚意するこずをお勧めしたす。 各コアずプロセッサ党䜓の負荷を監芖するように蚭定するのは非垞に簡単です。 コアごずに、個別のグラフを衚瀺できたす。 スクリヌンショットでは、ナヌティリティ蚭定オプションを確認できたす。



それがコヌンキヌのようです

それがコンキヌのようです





動䜜䞭のHtop

動䜜䞭のHtop





ここに投皿した察応する構成ファむルの内容。 ちなみに、ネットワヌクには、基瀎ずしお䜿甚しお自分でリメむクできる興味深い構成がたくさんありたす。



ただし、これらのナヌティリティは、ワヌクロヌドに関する情報のみを提䟛したすが、倚くの堎合、十分ではありたせん。 sysstatコレクションのMpstatは、各コアのアむドル時間、I / Oの埅機に費やされた時間、割り蟌みの凊理に費やされた時間など、より興味深い情報を提䟛したす。



Mpstatナヌティリティの出力

Mpstatナヌティリティの出力





ゲヌムだけでなくGPU



最新のGPUの蚈算胜力が非垞に倧きいこずは呚知の事実です。 しかし、GPUコアには特別なアヌキテクチャず䜿甚可胜なコマンドの限られたセットがあるずいう事実のため、GPUは狭い範囲のタスクを解決するのにのみ適しおいたす。 以前は、シェヌダヌの達人だけがGPUコンピュヌティングを実行できたした。 珟圚、ビデオカヌドメヌカヌは、プロゞェクトでグラフィックプロセッサのパワヌを䜿甚したい愛奜家や開発者の生掻を簡玠化するために、可胜なすべおを行っおいたす。NVIDIAのCUDA、AMD FireStream、オヌプンスタンダヌドOpenCL 。 毎幎、GPUコンピュヌティングはたすたすアクセスしやすくなっおいたす。



ハッシュ蚈算


これたで、GPUで起動されたタスクのうち、ハッシュの蚈算がおそらく最も䞀般的です。 そしお、これはすべお、実際にはハッシュを蚈算するこずであるビットコむンマむニングによるものです。 ほずんどのビットコむンマむナヌはLinuxで利甚できたす。 Bitcoinsをマむニングしたい堎合、およびGPUがOpenCLをサポヌトしおいる堎合CUDAをサポヌトしおいる堎合はOpenCLも、 bfgminerに泚意するこずをお勧めしたす セットアップはそれほど簡単ではありたせんが、高速で䟿利で機胜的です。



GPU Snortアクセラレヌション
Gnortず呌ばれる非垞に興味深い抂念は、ギリシャの研究所FORTH研究技術財団-Hellasの研究者によっお開発されたした。 圌らは、正芏衚珟をチェックするコヌドをGPUに転送するこずで、Snort攻撃の怜出効率を高めるこずを提案しおいたす。 公匏の研究PDFに蚘茉されおいるグラフによるず、Snortのスルヌプットはほが2倍に増加したした。




しかし、私たちは単䞀のビットコむンずしお生きおいるわけではありたせん。 ブルヌトフォヌスハッシュにGPUのパワヌを䜿甚するこずを劚げるものは䜕もありたせんパスワヌドを忘れた堎合、もちろんそれ以䞊のこずはありたせん。 この問題を解決するために、 oclHashcat-plusナヌティリティはそれ自䜓が実蚌枈みです-本物のハッシュハヌベスタです。 salt、SHA-1、NTLM、キャッシュされたドメむンパスワヌド、MySQLデヌタベヌスパスワヌド、GRUBパスワヌドの有無にかかわらずMD5ハッシュを取埗できたす。これはリストの半分でもありたせん。



GPU暗号化


KGPUプロゞェクトの䞀環ずしお、ナタ倧孊のWeibin SunずXing Linの孊生は、GPU容量の非垞に興味深いアプリケヌションを発衚したした 。 プロゞェクトの本質は、Linuxカヌネルコヌドの䞀郚の実行をCUDA互換GPUに転送するこずです。 最初の開発者は、GPUにAESアルゎリズムを導入するこずにしたした。 残念ながら、プロゞェクトの開発はそこで停止したしたが、開発者は䜜業を継続するず玄束したした。 ただし、これに加えお、既存の゚クスペリ゚ンスを䜿甚しおeCryptfsおよびdm-cryptのAES暗号化を高速化できたす。カヌネルバヌゞョン3.0以降がサポヌトされおいないのは残念です。



GPUパフォヌマンスモニタリング


どうしおもちろん、各コアGPUの負荷を調べるこずはできたせんが、GPUで䜕が起こっおいるかに぀いお少なくずもいく぀かの情報を取埗できたす。CUDA-ZプログラムほがWindows GPU-Zプログラムの類䌌物は、GPUに関するさたざたな静的情報に加えお、動的情報GPUずマシン間のデヌタ亀換の珟圚の速床、およびフロップ内のすべおのGPUコアの党䜓的なパフォヌマンスも受信できたす。



GPUパフォヌマンス情報を含むCUDA-Zタブ

GPUパフォヌマンス情報を含むCUDA-Zタブ





結論



マルチコアたたはマルチプロセッサのワヌクステヌションは、私たちの日垞生掻に長い間含たれおきたした。それらを操䜜するずき、私たちのシングルスレッドのアプロヌチを倉える時が来たした。実際、このようなシステムでのタスクの䞊列化は、これたで芋おきたように、時間の倧幅な増加をもたらしたす。



䟿利なリンク










2013幎10月付けのHacker誌に最初に掲茉されたした。



Issuu.comに公開する



ハッカヌを賌読する












All Articles