カルマの非互換性とサービスエンジニアの運命のその他の変遷









私たちは最近、わらがどれだけ成長したとしても、物事がいかにうまくいかないかについて、いくつかの有益な話をしました 。 私たちは別の事件を思い出しました。同時に、特に直接の参加者にとっては、面白くて非常に劇的なものでした。 時間が経つにつれて、彼らはすでにその悪夢のような時間を笑いながら覚えています。



素晴らしい顧客がいます。顧客と呼びましょう。 エンジニアNは、当社で働いており、有能で、多くのことに熟練したインテリジェントエンジニアが、さまざまなクライアントとうまく連携しています。 そして、ネットワークベンダーの1社の決定によれば、彼はまったく珍しい専門知識を持っていました。そのような専門家を市場で見つけるのは容易ではありません。 しかし、Nが顧客のアプリケーションを実行したとき、すべてが常に長くて苦しいダウンタイムで終わりました。 さらに、毎回、エンジニアNの知識の不足ではなく、いくつかの省略、ランダムエラー、見落としがありました。 その結果、お客様からこのエンジニアを交換するように依頼されました。 繰り返しますが、エンジニアは優秀で、他のクライアントには問題はありませんでした。 しかし、顧客に届くとすぐに...悪魔は彼を知っています-彼らが何らかのカルマの非互換性を持っていることは明らかです。



すべての顧客アプリケーションへのNアクセスを閉じて、このサイトに別のスペシャリストを割り当てる必要がありました。



したがって、その時点で、この会社のシステムに従事していた2人のエンジニアがいました。 状況のばかげたところは、顧客の次の要求に取り組む必要があったときに、そのうちの1人が休暇中で、2番目が病気になったことでした。 例外として、すでに組織のシステムに精通しているエンジニアNがすべてを行うことを提案しました。 顧客は同意しました。 問題があります-除去する必要があります。 Nアクセスを復元し、彼はアプリケーションを完了しました。 すべてが順調に進んだことは誰もが喜んでいた。 しかし、文字通り2時間後に怒った電話がありました。エンジニアNは携帯電話番号のセグメントを制御しなかったため、切断されました...再び、Nはこのクライアントのインフラストラクチャへのアクセスを拒否されました。



時間の経過反抗的な嵐/以前の夢の散乱お客様のインフラストラクチャは非常に速いペースで成長しました-年に約2回。 彼は地元のデータセンターでcr屈になりました。 機器はもはや適合できず、ネットワークの負荷は極端でした。 新しい広々としたデータセンターに移動することにしました。 移行プロジェクトは私たちに委託されています。 私たちは半年間それをうまく処理し、すべてに備え、すべてを準備しました。



移動の承認日までに、作業を実行する従業員のリストを提供しています。 エンジニアNもそこに登場し、顧客は「もう一度問題が発生するだろう」と見て疑った。 しかし、彼は、エンジニアのグループが2日間連続して施設で精力的に働かなければならないほどの作業量だったため、同意しました。 Nは機器の初期インストールにのみ参加し、他の専門家がメインシステムを取り上げて構成することに同意しました。



ここで、新しいデータセンターの立ち上げ日が非常に厳しかったことに注意してください。 締め切り後の1時間のダウンタイムごとに、7桁の罰金に直面していました。 一般的に、私たちには間違いや遅延をする権利がありませんでした。



古いデータセンターに到着し、2時間で機器を解体しました。 彼らは最初のバッチを新しいデータセンターに持ち込み、マウントを開始しました。 重要なビジネスシステムを上げるために、彼らはすぐに機器を仮想化システムに切り替え、組み立て、起動、確認し、リンクが外部に表示されるのを待って、ビジネスが対応するアプリケーションの使用を開始できるようにしました。 つまり、すべての準備が整いました。電話ゲートウェイのインストールが完了するのを待っています。 締め切りの2時間前に残り、その後、巨額の罰金がかかります。 誰もが非常に緊張しています。



仮想化システムの迅速な転送のために、十分な大きさのIBM Xシリーズサーバーが割り当てられました。これは、移動中に顧客が予備のデータセンターを持っていなかったため、必要な措置でした。 約1週間で、ビジネスシステムを起動するためのコアの数に適した唯一のサーバーを見つけることができました。 サーバーには大量のRAMがありましたが、それでも内臓を削ってメモリの量を増やしました。 奇妙な偶然の一致により、新しいデータセンターのこのサーバーは、電話ゲートウェイが取り付けられたのと同じラックにありました。 そして、エンジニアNはインストールに従事していました



そして、突然、38ユニット(つまり、1.5メートル以上)の高さから、10ポンドの電話ゲートウェイを仮想化サーバーに明確にドロップします。このサーバーでは、外部リンクを見越して必要なソフトウェアがすでに持ち上げられ、構成されています。



ホールで-致命的な沈黙。 カウンターの隣には、サーバーをセットアップするためのモニターが付いたカートがありました。 モニターが消えました。 非常灯が散乱し、サーバーが再起動しました。



沈黙はマットで爆発し、エンジニアNはエンジンルームから取り除かれ、彼の祖先に散歩に出されました。 サーバーのチェックを開始しました。 最初からも、2回目からも、3回目からも開始されませんでした。 すべてのプロセッサおよびメモリバーのアラーム表示が点滅します。 彼らは、サーバーからの打撃でラッチに固定されているカバーがフラッシュしたため、マザーボードが割れたのではないかと疑っていました。 サーバーがまったく起動できないことを恐れていました。 そして、チーム全体を使用する場合、新しいサーバーの組み立て、切り替え、検証に約20時間かかります。 そして、そのような時間ごとに会社に何百万ルーブルの罰金がかかります。 プロジェクトマネージャーを見るのは辛かったです。



約1時間で、サービスセンターの担当者はコンポーネントごとにサーバーを通過し、試行錯誤を行って障害のあるコンポーネントを見つけました。 いくつかのメモリスロットが破損しました。 それらは交換され、残りは再インストールされ、すべてのプロセッサーは再インストールされ、メザニンは再インストールされました。 すべてのコネクタを確認し、すべてをつまんで移動しました。 サーバーが起動しました。



私たちは再びビジネスアプリケーションを調達し始めました。 最初は、サーバーリソースがそれらに近いため、パフォーマンスを人為的に制限する必要がありました。 アプリケーションがアップロードされるまでに、外部リンクはすでに作成されていて、データセンターは締め切りの2分前に運用されていました。



時間があります。



「そのようなエンジニアはたくさんいますか?」とあなたは尋ねます。 いいえ、Nは種類の1つであったため、長年にわたって記憶されていました。 しかし、私たちはまだ結論を出しました:1)すべての専門家が特定の顧客に合うわけではありません2)カルマの非互換性はまだ存在します:)。 ところで、Nは今日、別の会社で働いており、うまくやっています。



Jet Infosystemsリモート監視および管理部門



All Articles