ロシアのアメリカのデータセンターでサーバーをどのように再構築したか

今日は、3時間でチームがソフトウェアテスト用のクラスターの生産性を4倍に高め、「頭脳を使って」どのように向上させたかをお伝えしたかったのです。



画像



更新しました。 この投稿は、スケールテストではありません-これは、楽しい瞬間の練習からの本当の話です。 VMokの密度を4倍に増やしました。比較テスト、グラフ、パフォーマンス分析が見られる場合は、ここにいません。 ここに今日はむしろパルプ小説があります。



「脚の成長」というトピックがどこから来たのかが明確になるように、いくつかの発言を行います。 Virtuozzoの仕事の特徴は、開発部門とすべてのプログラマーがモスクワ(SWsoftの遺産であり、母校であるFizTech)にあり、本社がシアトル(米国)にあることです。 しかし、今日の投稿では、これが重要なのは、ソフトウェアテスト用のHPCクラスターも米国にあり、テストタスクの主要な「顧客」がモスクワにいるからです。 そして、すべてのリモートアクセスにもかかわらず、これは問題になる可能性があります。これらの2つのポイントの間には11のタイムゾーンがあり、シアトルで営業日が始まるとモスクワで終わるため、サーバー上の何かを物理的に変更することは容易ではありません。



画像



打ち上げられたが、投獄されていない



しかし実質的には、Virtuozzoソフトウェアの新しいバージョンをテストするために、仮想化システムをインストールした10台のマシンの大規模なクラスターが起動され、VMレベルで多数のテスト実行のためにソフトウェアを再度ロードします。 開発エンジニアによるこのプロセスの絶え間ない監視にもかかわらず、クラスターの負荷の99%以上は、任意の時点でできるだけ多くのテストサブタスクを実行しようとする自動化されたボットによって作成されます。



クラスターは比較的最近起動され、データセンターのサイトにVirtuozzoの常勤スタッフはいません。 そして、これは問題ではないようです-それにもかかわらず、リモートで行うことができます...まあ、物理的な再構成を除いて、それはまさにそれを必要とした人たちでした。



Xeon L5640およびXeon X5650プロセッサを搭載した10台のサーバーは、Virtuozzo Storageが実行されているという事実を考慮しても、かなり高い負荷を負うことが判明しました。 しかし、それらの間のメモリとディスクの配布は、今後のタスクを考慮せずに実行され、インストールされた追加のネットワークカードは単に「必要な場所ではない」ため、パフォーマンスを向上できませんでした。



画像



クラスターを分析した後、次の理由で、アセンブリ中に作業の予備モデルを作成できなかったことがわかりました。



  1. ユーザー(主にボット)のVMへのアクセストラフィックがストレージシステムのトラフィックと混ざり合い、チャネルが詰まった
  2. 仮想マシンは、少量のRAMを搭載したノードで無意味に起動し、過負荷になりました
  3. 追加のネットワークカードは、トラフィックの再配布ルールがないため、単にアイドル状態でした


このすべての不名誉を打破するために、次のルールに従って多数のサーバーを再構築することが決定されました。



-すべてのサーバーに2(またはVZストレージを備えたサーバーの場合は4)ネットワークカードをインストールする

-最も容量の少ないディスクを、性能の低いプロセッサを搭載したサーバーに挿入し、追加のネットワークインターフェイス(VZストレージ用)を結合に結合します

-より強力なプロセッサを搭載したサーバーに容量の少ないディスクを挿入しますが、RAMは最大にします。



ブライトンビーチからデリバソフスカヤまで



この「キャスティング」を実行するために、彼はシアトルで「彼の男」を必要とし、私たちの同僚キリル・コリシュキンは彼になりました。 幸いなことに、彼はデータセンターにアクセスでき、クラスター管理者ではありませんでしたが、私たちを助けてくれてうれしかったです。



仕事の準備は万全でしたが、Cyrilは交通渋滞に巻き込まれ、モスクワ時間20〜30時にのみデータセンターに到着しました。 金曜日の夕方、私は家に帰りたいのですが、仕事が必要です。 そして、一般的なチャットから始めて、何をどこにインストールするかを話し合います。



「どうやって知るの? この場合、私は鉄のエンジニアの役割を果たします。あなたのシステムでは何も理解していません」は、エンジニアの最も重要なフレーズの1つです。



はい、彼は盲目的に、そしてその方向で働いていたので、とても興味深い点がいくつかありました。 プロセスの感覚を損なわないために、すべてのおtheが調理されたチャットからの抜粋を引用します。



kir [9:15 PM]ボルトをいくつか落としました。どこにあるかを誰かに尋ねたいと思いました。

[9:15]わかりました、自分で探します

[9:30]ボルトを探し続ける

[9:40]イチジクとそれら、ボルト付き



[9:19]みんな、サーバーに頭をぶつけた

[9:19]私は血を止めます

[9:19](これは冗談ではありません)



並行して、私たちはシステムについて多くのことを学びました。これらのシステムはアメリカの静かな場所にあります。



kir [午後9時51分]車の右側に118のカーブした手すりがあり、足に倒れそうになったので、かろうじて戻し

apershin [9:52 PM]入り口にヘルメットを付けていませんでしたか?))危険な産業のように)))

kir [9:52 PM]それは本質的に半分でそこにぶら下がるか、むしろ前のものの上に横たわる



もちろん、この状況ではユーモアがなければ不可能です。 それでも、チャットは保護されていませんでした...



アレクサンダー:アメリカ人-繰り返しますが、これらの狂ったロシアのハッカーは何かしら-おそらくヒラリー本社への攻撃)))))

apershin [11:05 PM]終わります、Cyrusに行きます)))



もちろん、Cyrilはサーバールームを出て、実際には自分のものではないことをやめたいと思っていました。



[11:41]ここから出航する準備ができました

[11:42]いつ可能になるか教えてください

[11:42]そして、昼食の時間は長く過ぎました

[11:45]おじさん、おじさん

[1:11]パジュシスではない



画像

「キー[10:47]はカートのすべてのネジよりも短い」



数時間と結果


しかし、すぐにすべてが機能したわけではないため、キリルをすぐに行かせることはできませんでした。 思ったよりも多くのネットワークカードがあり、すべてのケーブルが正常に機能しているわけではないことがわかりました。最後に、サーバーのBIOS設定が異なり、構成変更後に一部のサーバーが再起動しなかったことがわかりました。



リンクを確認し、パッチコードを変更し、システムを再インストールした結果、モスクワ周辺の夜の時間までに、仕事の問題に対処するために、あざができ、頭が損傷し、腹が空いたCyrilがリリースされました(彼はすでに昼食をスキップしたので、簡単に降りました)おやつ)。



結果として得られたのは、テスト用の生産性の高いクラスターです。各環境で5〜7個の仮想マシンを使用する代わりに、15〜20個を実行できました。 同時に、ボットやユーザーからのリクエストを妨げることなく、ストレージは専用スイッチを介して別のネットワークで機能しました。 そのため、私たちのチームはその結束を証明し、コンポーネントの最適な分散により、サーバーはより効率的に機能し始めました。 サーバーでリモートで作業することを恐れないでください。主なことは、怪我や飢starを恐れない信頼できる人を配置することです。



All Articles