CROCエンジニアリングサービスの仕組み-3泊でクラスターがどこかで壊れた場合はどうなりますか



DL360は、ホットスワップ可能なPentium Iサーバーです。 シベリアのどこかで、絶え間ないプレッシャーの下で、彼の双子の兄弟は長年働いています。 それが失敗した場合、根本的な再構成なしで単純に作業を続けることができる代替品があります





しかし、そのような写真では、道路上の朝がしばしば始まります



おはようございます 私の名前はアレクサンダーです。CROCサービスチームの責任者です。



全国には、クラスターの障害が発生すると、すぐに地元の本管がテレビで放映される施設が数多くあります。 これらは、さまざまな研究機関、産業企業、銀行のノード、保険、石油会社のオブジェクト、空港などです。 そして、ハードウェア、ソフトウェアをそこに配置し、これらすべてをサポートのために保持します。



そもそも、冒険のないモンタージュはほとんどありません。 ええ、食べ物やネットワークを提供するのを忘れただけなら。 サーバーラックが建物の外にあると、ドアの寸法が間違って示されたために悪化します。 次のような瞬間がまだあります。「みんな、準備し、接続しました。ニュアンスがあるだけです。サーバーはアンロード中にドロップされました。 まあ、ほんの数回です。」 次に、私たちの仕事がどのように見えるかを説明します。



仕事の意味



CROCでの作業中、設置とサポートのためにほぼ全国を旅しました。 現在、私は部署を担当しているので、めったに旅行しません。





私の職場。 ご覧のとおり、フォルダーは腺以上のものです



戦闘シフトの通常のシナリオはこれです:私たちは座って呼び出しを待っています。 何かが故障した場合、故障を修正する方法についてかなり厳しい基準があります。 たとえば、モスクワの重要な施設では、鉄の交換時間は処理から4時間です。 ノボシビルスクなどの都市には、チケットの予約に問題がないため、特に重要な施設もあります。



コールを待っているチームは、所定の場所にいて、勤務中でなければなりません。 原則として、この時点で戦闘機は新しい鉄を選んで研究するか、自己訓練を行っています。 一般的に、私たちは資格を訓練し、改善します。



時々、私たちは新しいソリューションをなめ、自分で「見る」ように注文します。 これから多くの興味深いプロジェクトが生まれます-天気や開いている窓に適応するオフィス照明システムから、セキュリティのためのさまざまなソリューションまで。





テスト



エンジニアの別の部分は、フルタイムのインストールとメンテナンスに従事しています。 彼らは故障してターミナルに走ったり、空港に急いだりする必要はありません。 彼らは事前に何を、どこで、どのように、いつ知っています。 繰り返しますが、各インストールは別々の冒険であるため、簡単にはなりません。 また、それを準備することは慎重に行うことをお勧めします。これは、実際には、チップやデールのような救助に駆けつけるよりもはるかに神経質な仕事です。



戦闘シフトの外では、ハードウェアも使用しますが、オフィスの外で既にこれを行うことができます。 もう1つの重要な側面は、エンジニアです。 これらは非常に優れた実務経験を持つ人々であり、一部の人々は内部トレーニングとさまざまな技術会議の両方で話すことがよくあります。 もちろん、サービスの下で働く戦闘機を除きます。 理論的には、複数の重大な状況が同時に発生した場合、フルタイムのエンジニアはハーフワードで発言を中断して逃げることもできます。 しかし、これは私の記憶に一度だけでした。





カップは私のものではありません。 しかし、それらは失われないように、たとえばあらゆる種類の小さな部品をそこに置くために非常に優れています。



インストールのための出発



たとえば、クラスターの標準インストールの場合、原則として複数の専門家が必要です。 1つはOSとクラスターの実際の構成に携わる人、もう1つはストーラギスト、3つ目は顧客がお尻を置くかどうかに応じたアプリケーションです。 2人と仲良くなると、ネットワーカが適切に配置されることがよくありますが、特定の時点でITがまったく存在しないこともあります。



アンロードから始まります。 それは起こります、彼らは鉄を打ちました。 故障を証明する必要がある場合(たとえば、輸送会社の過失により機器が破損して到着したなど)に写真を撮ります。 それから私達は長い間それを理解します。



すべてが本来通りに来たとします。 システムを同じクラスターに配置します。 すべてが順調です。仕様、機器、ソフトウェアがあり、カスタマイズに取り組んでおり、マネージャー間でいくつかの合意があります。 すべてが100回議論され、経験からの困難な瞬間はすべて同意されました。 エンジニアが到着し、彼は理想的な世界がここにないことに気付きます。



彼は、たとえば、ネットワーク担当者に近づき、「スイッチで8つのインターフェイスを選択する必要がある」と言います。 そして、彼らは彼に言います。「私には6人しかいません。あと2人は明日または明後日になります。 倉庫から注文する必要があります。」 エンジニアは走り、みんなに何かを求めます。 彼らが彼にすべてを与えるとき、彼らがラックのある場所を突くとき、彼らは電気を接続し、それにケーブルを引っ張った、数日が経過するかもしれない。



その後、彼はドメインに登録する管理者に電話をかけ始め、DBMSの専門家に電話をかけ、彼はすべての配置を教え始め、管理者も彼をシステムに入力します。 彼は新しい人と仕事をするたびに、彼が準備されているという事実ではありません。 そして、システムは戦闘であり、エンジニアはパスワードを知らないので、管理者は彼の隣に座り、彼のためにそれを運転する必要があります。 また、あまり楽しくありません。 そして、人は異なる場合があります。 たとえば、SQLボックスは飲むのが好きで、妻が辞めたためにマイナス30で誰かがTシャツを着てシンプソンズに行きます。 誰もがアプローチを見つける必要があります。 共通のタスクがあるので、これらすべての人々が助けてくれることは明らかですが、それでもあなたの仕事を終えるために皆から何かを学ぶ必要がある何らかのファンがいます。 誰もがどのように、どのように配置されているかを説明する必要があります。 多くの場合、実際のドキュメントは多少異なり、インストールの概念が変わる場合があります。 または、ネットワーク上の特定の種類のパケットがモスクワのポリシーによって禁止されていることが突然判明します(そして、ベルトが異なり、モスクワの深夜になりましたので、電話しません)。



この段階では、バックアップがなかったので、1年間バックアップがあったことが判明する場合があります。 ハハ そして再び、多くのエロティックな冒険が始まります。 もちろん、バックアップなしで設定することもできます。正式には、それとは何の関係もないようです。 しかし、その後、否定的なものが残ります:彼らは言う、いくつかが到着した...、ここですべてを壊し、去った。



付属品



倉庫についても言う必要があります。 ホットスワップ可能なアイテムは約8万点あります。 4時間交換するSLAがある場合、倉庫はエレベーターを降りるよりも早く鉄片を提供する必要があることは明らかです。 したがって、当社の店主は、正確な記録を整然と保持し、すべてをチェックします。





会計システムは、「箱の中のあなたの鉄片は、ブロックなどの中にあります。」 小さいか大きいかに関係なく。





近づいて-ここにあるものをすぐに見ることができます





倉庫のセクションの1つに「博物館」があります-そのような展示物がある場所



これらは本当に機能しており、ホットスワップに本当に必要です。 システムが複雑で重要であり、「動作中に触れないでください」場合、障害が発生したノードを再構成して再実行するよりも、まったく同じノードに変更する方が簡単です。 したがって、私たちは博物館にふさわしい埋蔵量を維持します。



All Articles