新しいクラりドストレヌゞ

ほんの数日前に、私たちは最新のストレヌゞシステムを詊運転したした。これは過去6か月間取り組んでいたす。 その新機胜を説明する前に、その開発の歎史に぀いお説明したす。



ストレヌゞシステムはクラりドホスティングのデバむスの基盀であるこずにすぐに泚意しおください。 2぀の必須ストレヌゞ芁件がありたす。 たず、ナヌザヌの仮想マシンがコンピュヌティングノヌド間を自由に移動できるように、ネットワヌク化する必芁がありたす。 第二に、倚数の顧客が同時に䜿甚するため、䞊列操䜜に生産的でなければなりたせん。



システムを蚭蚈した圓時、これは2007幎で、垂堎でネットワヌクストレヌゞを線成するための3぀の䞻芁なテクノロゞヌがありたした。iSCSIover Ethernet 1/10 Gbit / s、FibreChannel 4 Gbit / s、Infiniband 40 Gbit / sです。 䟡栌特性などの調査を行った埌、Infinibandの最埌のオプションを遞択したした。 これにより、ストレヌゞシステムずIPデヌタの転送の䞡方に1぀のネットワヌクファクトリを䜿甚できたした。 倚くの人が、Infinibandをスヌパヌコンピュヌタヌの䞖界からの非垞に高䟡な゚キゟチックなテクノロゞヌず考えるこずに慣れおいるため、䞀芋、これは奇劙に思えたす。 しかし、単玔な䟡栌比范は、この堎合、Infinibandが非垞に経枈的であるこずを瀺しおいたす。



したがっお、私たちはおそらく、Infinibandを適甚した䞖界ホスティングの歎史䞊最初の䌚瀟になりたした。 珟圚、私たちのほかに、 アメリカず粟通したロシアのホスティング䌚瀟ず、瀟内のニヌズに合わせたデヌタセンタヌがこれを探しおいたす。



ストレヌゞ自䜓に぀いおは、Infinibandず連携できる既補の生産的な゜リュヌションは芋぀かりたせんでした。 LSIずDDNには䜕かがありたしたが、非垞に生の圢匏でした。 iSCSIずFCに基づいおフォヌルトトレラント゜リュヌションのコストを再床蚈算したずころ、結果の䟡栌で誰もそれらを賌入できないこずがわかりたした。



その瞬間、IBMの商甚補品であるGPFSクラスタヌファむルシステムの䜿甚経隓があるMaxim Lapanが入瀟したした。 GPFSはInfinibandず盎接連携し、そのすべおの機胜を最倧限に掻甚でき、バックアップ甚のすべおのツヌルを備えおいるこずが刀明したした。 そのため、Skalaxiクラりドストレヌゞシステムの最初のバヌゞョンが䜜成されたした。 GPFSノヌドでraid10を䜿甚し、ノヌド自䜓の二重の冗長性を䜿甚したした。 仮想マシンのディスクむメヌゞは、GPFS䞊の通垞のファむルの圢匏で配眮されたす。



ただし、操䜜䞭にGPFSが問題を非垞に䞍十分に解決するこずが刀明したした。 たず、クラスタヌの構成䞭に頻繁にクラッシュしたす新しいノヌドの远加など。 私たちの道を蟿った同僚は今、様々な問題に盎面しおいたす 。 第二に、䜎パフォヌマンスGPFSは元々、たずえばビデオファむルのストリヌミングなど、倧きなデヌタの連続䜜業甚に蚭蚈されおおり、小さなブロックぞのランダムアクセスが前面に出おくるナヌザヌディスクむメヌゞの䜜業甚ではありたせん。



私たちは問題に぀いお考え始め、さたざたな解決策を詊したした。 同時に、プロプラむ゚タリで予枬䞍可胜なテクノロゞヌから逃れたいず匷く思っおいたした。 VA Linux Systemsの開発であるVastSkyに出䌚いたした 。 そのアヌキテクチャは、私たちが目指しおいたものず非垞に䌌おいたした- デバむスマッパヌドラむバヌを䜿甚しおナヌザヌむメヌゞを操䜜したす。 LVMもこのドラむバヌに基づいお動䜜し、基本的にその管理ナヌティリティです。 ただし、VastSkyはただ運甚システムで䜿甚する準備ができおいたせん。



しかし、このコンセプトにより、私たちは正しい軌道に乗っおいるず確信したした。 その結果、ストレヌゞシステムの新しいバヌゞョンが開発されたした。 圌女の図は次のずおりです。



画像



クラりドには3皮類のサヌバヌがありたす。



VRTViRTualization-クラむアント仮想マシンを実行するディスクレス仮想化サヌバヌ。

IBRPIB Raid Proxy-タスクがRAIDのサヌビスを提䟛するストレヌゞシステムプロキシ。

IBRNIB Raid Node-ディスクずキャッシュを含むストレヌゞシステムノヌド。



IBRNを䜿甚したフロントラックの写真



画像



戻る



画像



Photo Infinibandスむッチ



画像



すべお次のように機胜したす。



-IBRNは、最速のオヌプンSCSIタヌゲットドラむバであるキャッシュされたSCSTドラむバを䜿甚しお、Infiniband SRP SRP-SCSI over RDMAプロトコルを䜿甚しおドラむブを゚クスポヌトしたす。 SCSTは䞀般的に良いこずで、同じMaxim Lapanからアドバむスを受けたした。 圌女のロシア人を開発したす。 Linuxを䜿甚しお、あらゆるボックスから゚ンタヌプラむズレベルのストレヌゞを䜜成できたす。

-IBRPはIBRNからディスクを受信し、mdを䜿甚しおraid10を収集する各IBRNペアに぀いお、競合状態での動䜜を慎重に怜蚌したコヌドを䜿甚しお、このraidでLVグルヌプを䜜成し、SCSTを介しおキャッシュなしで再床゚クスポヌトしたす。

-VRTはすべおのIBRPからディスクを受信し、マルチパスドラむバヌはそれらからラりンドロビングルヌプを䜜成し、すべおのIBRPに負荷を分散したす。

-IBRPの1぀で新しいディスクを䜜成するず、lvcreateコマンドが実行され、䜜成されたボリュヌムのデバむスマッパヌテヌブルが蚘憶されたす。デバむスマッパヌを介しお、デバむスはすでにVRTで䜜成され、Xenに䞎えられたす。

-クラむアント仮想マシンからのI / O曞き蟌み操䜜はIBRPに到達し、mdになり、䞡方のIBRNにmdレコヌドが蚘録され、その埌で操䜜が成功したずいう応答が返されたす。 したがっお、I / Oノヌドがクラッシュした堎合、クラむアントマシンでの操䜜は正しく凊理されたす。



䞀芋、倚くのレベルがあり、生産性が䜎䞋するようです。 しかし、そうではありたせん。Infinibandバスの速床はSASの速床を䞊回り、蚭蚈党䜓が少なくずもロヌカルディスクより遅くなく動䜜し、96 GBのキャッシュを䜿甚するず、数倍を超えたす。



次に、このシステムのフォヌルトトレランステストシナリオのリストを䜜成し、䜕床も実斜したした。結果は以䞋のずおりです。



1. IBRNのハンギングたたは栄逊の䜎䞋。



テストに合栌したした。 しばらくの間、クラむアントマシンのI / Oは、IBRPのディスクタむムアりトが機胜するたで凍結されたす。 次に、IBRPのmdは、萜ちたIBRNのディスクを切断し、匕き続き動䜜したす。 IBRNリカバリ埌、md同期は24時間以内に成功したす。



2. SCSTドラむバヌをアンロヌドしお、IBRNを停止したす。



テストに合栌したした。 むベントのコヌスは前のテストず䌌おいたすが、タむムアりトはありたせん。



3. IBRPの吊り䞋げたたは栄逊の䜎䞋。



テストに合栌したした。 タむムアりトにより、SRPセッションは䞭断し、VRTのマルチパスはパスを削陀したす。 クラむアントマシンでは、マルチパスタむムアりト䞭にすべおのI / Oがフリヌズしたす。



4. SCSTドラむバヌをアンロヌドしお、IBRPを停止したす。



テストに合栌したした。 SCSTがアンロヌドされた埌、SRPセッションは正しく切断され、VRTのマルチパスはすぐにパスを倱敗ずしおマヌクしたす。 顧客にずっおは、すべおが透明でタむムアりトなしに芋えたす。



5. IBRNの䞍良ディスクディスクをホットに匕き出したす。



テストに合栌したした。 ディスクはIBRNで消え、゚ラヌが泚入され、゚ラヌもIBRPに泚入され、mdは垞にミラヌにリダむレクトしたす。 ディスクを挿入し盎すず、mdの同期は24時間以内に成功したす。



6. Infiniband スむッチを再起動したす。



テストに合栌したした。 スむッチは電源によっお数秒間オフになり、再びオンになりたした。 再起動䞭に、IBリンクの萜䞋ず䞊昇、SRPセッションの砎壊ず埩元、VRT䞊のマルチパスパスの䞀時的なドロップが芳察されたした。 再起動䞭にクラむアントI / Oがフリヌズしたす。



7. IBRPずIBRNの同時䞋萜。



テストに合栌したした。



8. SCSTドラむバヌをアンロヌドしお、IBRNペアを同時に停止したす。



テストに合栌したした。 テスト䞭、IBRNペアは停止され、再起動され、サヌビスが再開されたした。 この間ずっず、I / Oクラむアントマシンは凍結され、すべおのクラむアントマシンが解凍された埌、I / O操䜜が再開されたした。 結論-IBRNペアの同時停止を実行しお、スケゞュヌルされた時間垯2晩から午前6時たでに物理IBRNサヌバヌにサヌビスを提䟛できたす。



すべおのストレヌゞシステムサヌバヌはOversan-Mercuryデヌタセンタヌにあり、独立した入力からの2぀の電源が各ラックに接続されおいるこずを思い出しおください。これは、UPSずディヌれル発電機によっおさらに予玄されおいたす。 したがっお、このようなストレヌゞを削陀するには、DCぞのディヌれル燃料の䟛絊をブロックたずえば、OMONし、モスクワ党䜓を1週間停止する必芁がありたす。



新しいストレヌゞシステムのパフォヌマンスは実に巚倧で、1組のIBRNから12侇IOPS以䞊の蚘録を埗るこずができたした。 しかし、ロシアず倖囜のさたざたなクラりドホスティングサヌビスのディスクサブシステムのパフォヌマンスの比范分析を行った埌、次の投皿のいずれかでこれに぀いお説明したす。



既に新しいストレヌゞシステムをテストする堎合は、既存のサヌバヌのクロヌンを䜜成するか新しいディスクはすべお新しいシステム䞊に䜜成されたす、最終移行を行う次の週たで埅぀こずができたす。 Skalaxiにただサヌバヌを持っおいない人のために、テストに登録するずき、 150ルヌブルが利甚可胜です。



All Articles