ベンダーの責任。 事故の責任者は誰ですか?

先週の木曜日、私たちのサービスは歴史上最大の事故を経験しました。 M9のインストールの1つは、外部ネットワークから数時間アクセスできませんでした。 どうした どうする 責任あるベンダーは何をすべきですか? 電話プラットフォーム番号1のベンダーの評判を維持する方法



タイムリーに修正されたエラーはもはやエラーではないと考えられています。 さて、実際に格言の正しさを確認しましょう。 通常、マーケティング担当者は1か月前に出版計画を作成し、各投稿のイデオロギーは「より速く、より高く、より強く」という動機付けのようなものです。 これは受け入れられており、私たちも例外ではありませんが、今度はマーケティングの教義から離れ、ざわめく新年のPRラッパーなしで生じた問題について正直に話します。







どうした



そのため、 ITooLabs Communications Serverが存在するクラスターがダウンしました。 確かに、完全には落ちませんでした。 40を超える大規模なオペレータプラットフォームがクラウド内で回転しており、1つのセグメントでさえ失敗したのは、5,000社のHelloが存在しないことです。 市場の10%を占めるベンダーであることは喜びだけでなく、大きな責任でもあります。 市場が緩和される可能性があることを考えると、特定の幻想はありませんでしたが、何が起こったかによって、膨大な数の加入者の「電話」生活に責任を感じました。 過去の事故はすべて、当社のパートナーにとってほぼ透明であり、速やかに解決され、稼働時間は契約に記載されている指標に対応していました。 ITooLabsの回復力には再考が必要であると考える正当な理由はありませんでした。 それは最後のイベントまでではありませんでした。



プラットフォームのすべてのノードは冗長です。 一部はホットスタンバイモードで、一部は共通の負荷を共有しますが、単一障害点はありません。 もちろん、これはネットワークインフラストラクチャに適用されます。すべてのスイッチがペアでインストールされ、すべてのサーバーが2つのスイッチに含まれ、すべての外部リンクが複製されます。 深刻な誤動作の場合、DDoS、Great Blackout 2005などの異常な何か、または愚かな小さなミスが必要です。 間違えました。 技術的な詳細は説明しません。 トピックに参加している人にとっては、インフラストラクチャエンジニアのプロセスの説明にエントリ(もちろん、血液で作成された)があったと言うことができます。 しかし、モスクワ時間の正午付近で、VLANが2つの外部スイッチで同時に落ちました。 すべての VLAN。 おそらく、その日、より高いオペレーターの問題の破片が私たちに来ました-シミュレーターで同様の状況を再現することができましたが、その結果、サービスはどこからでもアクセスできなくなりました。



SaaSの同僚は、疑いもなく、突然すべてが壊れ、サイレンのcourse音(もちろん、そのような場合にはオフィスにサイレンがあります)、パニック、クライアントからの最初の呼び出し、そして空の頭で、何らかの理由で、「F」と「P」の文字で始まる2つの単語だけが飛び回ります。



私たちは多くの異なる教えを行います。 ノードのドロップアウト。 スイッチのドロップアウト。 新年の荷物をリサイクルするための新しいユニットの緊急の試運転。 しかし、「2つの複製スイッチが同時に死んだ」というシナリオは一度もありませんでした。



緊急チャンネルを介してコンソールに到達するのに数時間かかりました。 何が起こったかを理解するため; 最終的に物理的にサイトに到達します。 そしてこれまで、すべての努力はトラブルシューティングに費やされ、サポートは「私たちは外の世界とのコミュニケーションに問題があります。 復旧時間についてはまだお伝えできません。」これにより、当社のオペレーターは極度の不便さを感じ、それから否定的な不満を感じました。



問題を認識した後、修復に数分かかりました。 呼び出しはすぐに行われ、さらに1時間後にインターフェイスが返されました。



しかし、被害は終わりました。



私たちは何をしましたか?



実際、今日、緊急事態後の断食の最も重要な部分です。 ITooLabsブログがすべてのパートナーに読まれていることを私たちは絶対に知っており、どのような結論が出され、何をしようとしているのかを率直に報告したいと思います。 したがって、オープン性と透明性に努めており、電子メールのサブスクライブ解除に関与せず、魂のないスクリプト「苦情処理」を実行することを明確にします。

















サービスの可用性が回復した後、すべてのパートナーオペレーターに個人的な通話が送信されたことは明らかであり、際限なく謝罪する特別な理由はありません。 それでも、この問題に関与したすべての人に謝罪します。



しかし、私たちはPaaSモデルと収益分配モデルの正確さを改めて確信しました。 シンプルなプラットフォームに対するベンダーの責任は常に最大であり、最高レベルのサービスを提供します。 通信事業者で多くの事故を目撃しましたが、サービス部門はすぐに何が起こったのか理解できず、遅いベンダーの長い技術サポートからの長い応答を待っていました。 私たちは望んでおらず、古典的なベンダーにはなりません。 すべてのインストールを監視し、何か問題が発生した場合は、即座に対応し、問題をすぐに解決します。 これにより、ITooLabsの迅速な開発と通信事業者の静けさが保証されます。問題が発生した場合、事前に対応し、すべての問題を排除する責任あるベンダーメンテナンスサービスがあります。



困難な状況で私たちを支えてくれた皆、パートナーのエンジニアリングサービスのすべての従業員に感謝します。



継続する。



All Articles