タイムリーに修正されたエラーはもはやエラーではないと考えられています。 さて、実際に格言の正しさを確認しましょう。 通常、マーケティング担当者は1か月前に出版計画を作成し、各投稿のイデオロギーは「より速く、より高く、より強く」という動機付けのようなものです。 これは受け入れられており、私たちも例外ではありませんが、今度はマーケティングの教義から離れ、ざわめく新年のPRラッパーなしで生じた問題について正直に話します。
どうした
そのため、 ITooLabs Communications Serverが存在するクラスターがダウンしました。 確かに、完全には落ちませんでした。 40を超える大規模なオペレータプラットフォームがクラウド内で回転しており、1つのセグメントでさえ失敗したのは、5,000社のHelloが存在しないことです。 市場の10%を占めるベンダーであることは喜びだけでなく、大きな責任でもあります。 市場が緩和される可能性があることを考えると、特定の幻想はありませんでしたが、何が起こったかによって、膨大な数の加入者の「電話」生活に責任を感じました。 過去の事故はすべて、当社のパートナーにとってほぼ透明であり、速やかに解決され、稼働時間は契約に記載されている指標に対応していました。 ITooLabsの回復力には再考が必要であると考える正当な理由はありませんでした。 それは最後のイベントまでではありませんでした。
プラットフォームのすべてのノードは冗長です。 一部はホットスタンバイモードで、一部は共通の負荷を共有しますが、単一障害点はありません。 もちろん、これはネットワークインフラストラクチャに適用されます。すべてのスイッチがペアでインストールされ、すべてのサーバーが2つのスイッチに含まれ、すべての外部リンクが複製されます。 深刻な誤動作の場合、DDoS、Great Blackout 2005などの異常な何か、または愚かな小さなミスが必要です。 間違えました。 技術的な詳細は説明しません。 トピックに参加している人にとっては、インフラストラクチャエンジニアのプロセスの説明にエントリ(もちろん、血液で作成された)があったと言うことができます。 しかし、モスクワ時間の正午付近で、VLANが2つの外部スイッチで同時に落ちました。 すべての VLAN。 おそらく、その日、より高いオペレーターの問題の破片が私たちに来ました-シミュレーターで同様の状況を再現することができましたが、その結果、サービスはどこからでもアクセスできなくなりました。
SaaSの同僚は、疑いもなく、突然すべてが壊れ、サイレンのcourse音(もちろん、そのような場合にはオフィスにサイレンがあります)、パニック、クライアントからの最初の呼び出し、そして空の頭で、何らかの理由で、「F」と「P」の文字で始まる2つの単語だけが飛び回ります。
私たちは多くの異なる教えを行います。 ノードのドロップアウト。 スイッチのドロップアウト。 新年の荷物をリサイクルするための新しいユニットの緊急の試運転。 しかし、「2つの複製スイッチが同時に死んだ」というシナリオは一度もありませんでした。
緊急チャンネルを介してコンソールに到達するのに数時間かかりました。 何が起こったかを理解するため; 最終的に物理的にサイトに到達します。 そしてこれまで、すべての努力はトラブルシューティングに費やされ、サポートは「私たちは外の世界とのコミュニケーションに問題があります。 復旧時間についてはまだお伝えできません。」これにより、当社のオペレーターは極度の不便さを感じ、それから否定的な不満を感じました。
問題を認識した後、修復に数分かかりました。 呼び出しはすぐに行われ、さらに1時間後にインターフェイスが返されました。
しかし、被害は終わりました。
私たちは何をしましたか?
実際、今日、緊急事態後の断食の最も重要な部分です。 ITooLabsブログがすべてのパートナーに読まれていることを私たちは絶対に知っており、どのような結論が出され、何をしようとしているのかを率直に報告したいと思います。 したがって、オープン性と透明性に努めており、電子メールのサブスクライブ解除に関与せず、魂のないスクリプト「苦情処理」を実行することを明確にします。
- 一番最初で最も重要なもの。 事故で傷ついたパートナーからの公式の請求や補償請求は期待していません(さらに、SLAの場合、この補償はそれほど重要ではありません)。 私たちは350万ルーブルの金銭的補償を決定しました-これは私たちが支払うことを余儀なくされている私たちの下落価格です。 これにより、顧客を維持し、新しい顧客を引き付けることができます。 金銭的な報酬のみ、ベンダー番号1としての評判を維持できます。
- ITooLabsは、 収益共有を主要なビジネスイデオロギーとして使用しており、パートナーの成功に直接依存しています。 これは私たちの公理であり、私たちは自分自身を繰り返すことに飽きません。 何が起こったのはあなたよりも痛くない。 これを理解しており、常に理解しています。 あなたのビジネスも私たちのビジネスです。失われた顧客は私たちの顧客です。 この出来事は過失やリラクゼーションの結果ではなく、主に私たちにとって予期せぬ事故です。 プラットフォームの現在のリリースで事故が再発しないようにするために、何をする必要があるかが明確になりました。 作業はすでに進行中です。
- フォールトトレランスポリシーが再設計されたITooLabs Communications Serverの新しいリリースの立ち上げに優先順位が与えられます。 2016年の初めに予定していたことは、できる限り迅速に行います。 新しいプラットフォームはすでに準備が完了しており、テスト済みです。 実際のインストールでは、1秒あたり最大1,500コールを処理することですべてが機能します。 ロードマップの優先順位を変更することにより、できるだけ早く導入することをお約束します。 少々お待ちください。
- 各パートナーとともに、発生した評判リスクを中和するソリューションを個別に探す準備ができています。 私たちに書いて、私たちは議論のために開いています。 返品するだけでなく、顧客ロイヤルティを高める方法をいくつか提供できる可能性があります。 これがどのように行われるかについての理解があります。
- 各パートナーと、インフラストラクチャ全体を最適化する方法について個人的に話し合います。 まだM9に直接ジャンクションを持っていない人には、プラットフォームに接続するための推奨スキームを提供します
- 緊急事態が発生した場合は常にパートナーに通知し、実行したアクションについて報告しました。 しかし、以前は、このような長いダウンタイムはありませんでした(そして、再び発生しないことを願っています)。 ただし、プロセスを最適化しており、必要に応じてイベントの経過を詳細に説明します。
- 私たちはあなたの知識であなたがより多くの手助けをすることを約束します 。
サービスの可用性が回復した後、すべてのパートナーオペレーターに個人的な通話が送信されたことは明らかであり、際限なく謝罪する特別な理由はありません。 それでも、この問題に関与したすべての人に謝罪します。
しかし、私たちはPaaSモデルと収益分配モデルの正確さを改めて確信しました。 シンプルなプラットフォームに対するベンダーの責任は常に最大であり、最高レベルのサービスを提供します。 通信事業者で多くの事故を目撃しましたが、サービス部門はすぐに何が起こったのか理解できず、遅いベンダーの長い技術サポートからの長い応答を待っていました。 私たちは望んでおらず、古典的なベンダーにはなりません。 すべてのインストールを監視し、何か問題が発生した場合は、即座に対応し、問題をすぐに解決します。 これにより、ITooLabsの迅速な開発と通信事業者の静けさが保証されます。問題が発生した場合、事前に対応し、すべての問題を排除する責任あるベンダーメンテナンスサービスがあります。
困難な状況で私たちを支えてくれた皆、パートナーのエンジニアリングサービスのすべての従業員に感謝します。
継続する。