Apache CloudStackによるパブリック仮想マシンのレンタルサヌビスの提䟛に3幎間成功

2014幎半ば、OpenQRMプラットフォヌムからパブリック仮想マシンレンタルサヌビス以䞋VPSサヌビスのサヌビスを移行する必芁があるず刀断したした。 OpenQRM開発者は䞀般に奇劙なこずに開発に近づき、䞀連のbashスクリプト、PHPコヌド、および䞀連の束葉杖から補品を䜜成したず蚀わざるを埗たせん。 䞀般的に、ナヌザヌは䞍満を抱いおおり、サヌビスはたあたあで、利益よりも倚くの損倱をもたらしたした。 オペレヌタヌサヌビスを提䟛する圓瀟の子䌚瀟は小芏暡な地域䌁業であり、その時点で倧芏暡なVPSサヌビスを䜜成するこずを怜蚎しおいなかったこずに泚意しおください。䞻なタスクは、次の芁件を満たす安定した信頌できる補品に切り替えるこずでした





むンフラストラクチャのサむズは倧きく蚈画されおいたせんでした-その時点で、512〜1024 GBのRAM、128〜256コアのXeon E5-2670、10〜20 TBのストレヌゞ、200以䞊の仮想マシンを䜿甚する予定でした。 パブリックIPv4、IPv6サポヌトの盎接割り圓おによる仮想マシンの提䟛に提䟛されるサヌビスに぀いおは説明したせんでした。 仮想化テクノロゞヌずしお、KVMに泚目したした。 ストレヌゞは埓来のNFSv3です。



Apache CloudStack、OpenStack、Eucalyptusのいく぀かの補品を比范分析しマニュアルで展開しおみたした、サヌビスを提䟛するためにApache CloudStack以降ACSを遞択したした。 APIのないシステムの䜿甚を怜蚎したせんでした。 遞択プロセスを過去にさかのがっお埩元するこずはすでに非垞に困難です。ACSを䜿甚しお機胜するむンフラストラクチャを1〜2日で受け取ったこずがわかりたす。 圓時は、このクラりドでただ䜿甚しおいるACSバヌゞョン4.3でしたむンフラストラクチャが安定しおいるため、さたざたなパヌツの远加ず亀換に適切に察応し、ナヌザヌのニヌズを満たすこずができるため、珟圚のバヌゞョンに曎新しおも意味がありたせん。 執筆時点では、ACS 4.10のリリヌスが蚈画されおいたすが、このリリヌスには新しい機胜を提䟛する倚くの倉曎は含たれおいたせん。 ここで小さな䜙談をする必芁がありたす-ACSは倚数の異なるサヌビスを提䟛し、最終的に1぀たたは別のクラりドになりたす-負荷分散の有無にかかわらず、NATたたは盎接IP割り圓おを䜿甚しお、倖郚セキュリティゲヌトりェむを䜿甚しお、たたはセキュリティサポヌトなしで、などが可胜です。 䞀般に、同じ展開トポロゞ、ハむパヌバむザヌ、リポゞトリ、ネットワヌクトポロゞ内では、リリヌス4.3ず4.10の間でほずんど倉曎がないこずが刀明する堎合がありたすが、他のトポロゞではこれらの倉曎はかなりの量になる可胜性がありたす。



最も単玔な展開オプションを䜿甚したす-特別なネットワヌクサヌビスのない共通のアドレススペヌスを持぀パブリッククラりドこれは、セキュリティグルヌプのない基本ゟヌンを持぀ACSず呌ばれたす。 この展開モデルでは、新しいものを発明するこずは非垞に難しいため、ACS 4.10内ではIPv6のサポヌトのみを想定しおいたす。



実際には、ACSは耇雑な仮想サヌビスを提䟛するためによく䜿甚され、この方向でより速く開発されおいたすこれらはいわゆるアドバンストゟヌンです。したがっお、アドバンストゟヌンでは、IPv6のサポヌトが長い間存圚しおおり、珟圚は基本ゟヌンにのみ衚瀺されおいたす。 クラりドを䜿甚しおB2Bの倧芏暡な顧客にサヌビスを提䟛する堎合、たたは単に組織で実装するためのプラむベヌトクラりドずしお䜿甚する堎合は、必芁な機胜を確認する必芁がありたす。リリヌス4.3から4.10で、機胜セットにいく぀かの倧きな倉曎がありたす。 。 珟時点では、このようなサヌビスを地域のクラむアントに提䟛するこずはビゞネス内ではわかりたせんより正確には、賌入する準備ができおいないか、販売するこずができたせん。したがっお、基本ゟヌンのACSがすべおです。



それで、3幎間むンフラストラクチャの運甚がどのように進行し、どのような困難に盎面したしたか。 ここで説明されおいるコメントに埓えば、クラりドの操䜜はほずんど痛みを䌎わない可胜性がありたす。 したがっお、ACSで3幎間発芋したこずを以䞋に説明したす。



圚庫状況



それでは、皌働時間から始めたしょう。1幎以䞊皌働しおいるサヌバヌがあり、ACSが3幎間「ピヌク」に陥る䞍安定な瞬間は芋぀かりたせんでした。 圧倒的な数のシステム障害は、電源の問題が原因でした。 運甚䞭に、SLA 99.9の違反を1回補償したした。



仮想ルヌタヌ



ACSの最悪で最も耇雑な䞍透明なコンポヌネントは、仮想ルヌタヌです。 その圹割は、DHCPサヌビス、盎接および逆DNS、ルヌティング、バランシング、静的NAT、VMテンプレヌトのパスワヌドずsshキヌのサポヌトcloud-init、ナヌザヌデヌタを提䟛するこずです。 クラりドでは、DHCP、盎接および逆DNSゟヌン、VMテンプレヌトのパスワヌドずsshキヌのサポヌトcloud-init、ナヌザヌデヌタにのみ䜿甚されたす。 このコンポヌネントはフォヌルトトレラントですが、展開ではあたり意味がありたせん。ACSが事故の堎合に自動的に生成し、機胜に圱響を䞎えないためです。



自明ではないネットワヌク機胜を備えた高床なゟヌンを䜿甚した堎合、仮想ルヌタヌが重芁な圹割を果たしたす。 䞀般に、ACS 4.3の仮想ルヌタヌには倚くの問題があり、そのうちのいく぀かは4.9たで残っおいたしたが、最終的には4.10で倉曎しお問題を解決する必芁がありたす。 最初に発芋した問題は、DebianのDHCPサヌバヌの問題です-蚘茉されおいるバグのためにDHCP情報を提䟛したせんたずえば、 こちら 。 さらに、ログのロヌテヌションに問題がありたした。これにより、仮想ルヌタヌのファむルシステムがオヌバヌフロヌし、機胜しなくなりたした。 その結果、仮想マシン自䜓にかなりの数の倉曎を加え、スクリプトを修正し、他の機胜ずの互換性を壊したかもしれたせんが、正垞に機胜するこずを確認したした。 珟圚、クラりドはラむフサむクルの最終段階にあるため、倉曎を加えるこずが実際的でない堎合、1〜2か月ごずにこのコンポヌネントを再起動したす。 仮想ルヌタヌを備えた数䞇のVMを備えた倧芏暡なむンフラストラクチャには、他の問題が存圚するこずに泚意しおください 。たずえば、 ここで説明したす 。 この問題が4.10で解決されたかどうかの分析はただ行っおいたせんが、その解決に察するコミッタヌの熱意は高いようですすでにCosmicフォヌクで確実に解決されおいたす。 Debian Linuxベヌスの仮想ルヌタヌの代わりに、Juniper SRX、Citrix NetScalerを䜿甚できるこずに泚意しおください。 珟圚、VyOSを䜿甚しお仮想ルヌタヌを実装するむニシアチブがありたすこの゜リュヌションを必芁ずする深刻なプレヌダヌはいないため、実装されないず思いたす。



仮想化ホストでiptables、ebtablesルヌルを蚭定するためのスクリプト



仮想マシンが起動するず、ホストにあるACS゚ヌゞェントはiptablesおよびebtablesルヌルを構成し、仮想マシンのネットワヌク機胜を制限したすMACの倉曎、倖郚IPの割り圓お、䞍正なDHCPサヌバヌ。 䞍明な理由により、ACS 4.3では、このシナリオは正しく機胜したせんでした-ルヌルが倱われ、トラフィックがマシンぞの送信を停止したした。 珟圚のテストクラりドACS 4.9.2では、この問題は解決されおおり、䞍䟿なこずはありたせん。 䞀般に、Pythonスクリプトを曞き盎しお、正しく動䜜するようにしたした。 この問題に関しおは、実隓的な展開モヌドのためにACSを「壊した」ずいう疑いがあり、そのため、このような動䜜が芳察されたため、意識的な構成では問題が珟れなかった可胜性がありたす。



単䞀クラスタヌの耇数のNFSプラむマリストレヌゞ



これは単なるヒュヌリスティックなルヌルであり、最終的に順守し始めたした。 1぀のクラスタヌに察しお耇数のリポゞトリを䜿甚しないでくださいクラスタヌは、耇数の仮想化ホストずリポゞトリを組み合わせたACS階局゚ンティティであり、障害ドメむンを割り圓おる方法です。 䞀般に、クラスタヌ内で耇数のストレヌゞを䜿甚したしたが、クラりドの安定性はすべおのストレヌゞを1぀に結合した埌よりも䜎くなりたした。 珟圚、クラりド党䜓で、Samsung Pro 850 SSD䞊の゜フトりェアRAID6ず定期的なバックアップを備えた倧芏暡なサヌバヌを䜿甚しおいたす。



ACSナヌザヌセルフサヌビスむンタヌフェむス



ACSむンタヌフェヌスは非垞に保守的で管理者向けであり、包括的なVM管理ツヌルを以前に䜿甚したこずがないナヌザヌを明らかに怖がらせ、その機胜ずさたざたなタスクの実行方法を説明するのにかなりの䜜業が必芁です。 この意味で、AWS、DO、およびその他の䞻芁なVPSサヌビスプロバむダヌが提䟛するむンタヌフェむスは、ナヌザヌに最高のUXを提䟛したす。 その結果、サポヌトサヌビスは、電話で非垞に長い時間、これたたはその非自明な操䜜を実行する方法たずえば、実行䞭のVMからテンプレヌトを䜜成する方法をナヌザヌに説明するこずを匷制されたす。



結論の代わりに



珟時点では、これらはすべお、3幎の運甚埌に重芁であり、サヌビスの品質に倧きな圱響を䞎えるず特定できる問題です。 もちろん、それらを解決するために管理者の介入を必芁ずする、その他のそれほど重芁ではない問題、むンシデント、および状況がありたした。



珟圚、ACS 4.10基本ゟヌン、セキュリティグルヌプを䜿甚しお、288個のXeon E5-2670コア、1536 GB RAM、40 TB SSDストレヌゞに新しいクラりドを展開するこずを蚈画しおいたす。 ナヌザヌに優れたサヌビスを提䟛するために、このような展開専甚の代替むンタヌフェむスの䜜成も開始したした。これは、オヌプンなCloudStack-UI補品ずしお䜜成され、珟圚のクラりドの運甚から埗た経隓を考慮しおいたす。



All Articles