「落下」後の定性的な離陸。 または、なぜManyBytesを「置く」

2012年8月23日の02:00から16:30に、MnogoByteネットワークの一部が正常に機能しなかったため、約3分の1の顧客で通信が部分的または完全に失われました。 熱い追跡で噂をすぐに払拭するために、私たちはこれが二度と起こらないように何が何をされたのかについて話すことにしました。





遠くから始めましょう。 約1年前、Mnogobyteネットワーク全体でトラフィックの急速な成長が始まりました。 これは、帯域幅とトラフィックに対する適切な関税、ロシアにおける良好な接続性、およびデータセンターでホストされるクライアント機器の全体的な増加により促進されました。 トラフィックが増加した結果、2007年と2008年に設置したCisco Catalyst 6500および7600シリーズのスイッチとルーターは、さらなる成長には不十分となりました。 すべてが非常に簡単です:スロットあたり2x20 Gbit / sおよびスロットあたり4つのフルスピードポートのみが制限です。 そのため、2012年初頭に、ネットワークコアをジュニパールーターに転送し、MMTS-9、MMTS-10、およびデータセンターの「リング」接続ノードに合わせて10 Gbpsでの接続を提供するために、一般的なネットワークアップグレードを計画しました。秒、およびそれに応じて、外の世界に同じ速度で通過するトラフィック。





ジュニパーMX960 3D



必要な機器(DWDMマルチプレクサー、DWDM-SFP +、10Gbit / sスイッチ、ジュニパールーター)を入手して、「リング」を新しい機器に転送しました。 そのため、2012年7月5日に、サイトのルーターをMMTS-9に正常に交換しましたが、データセンタークライアントのほとんどはこれに気付きませんでした。 作業は大変でしたが、それでも中央ルーターです!



2012年8月23日に、別の交換ルーターを計画しました。 これで、タスクははるかに複雑になりました。12を超えるアクセススイッチと、ルーターに直接含まれていた約130のクライアント接続を切り替える必要がありました。 作業の準備を徹底しました。リングには個別のスイッチが含まれており、顧客はいくつかの段階で切り替えました。 これらのクライアントも別のルーターによってルーティングされました。 8月23日の夜、アクセススイッチを同じ「リングの一部」に切り替えて、顧客を他のルーターに連れて行く予定でした。 顧客の総ダウンタイムは1時間未満です。 130の直接接続はどこにも見つかりません。新しいジュニパーが含まれるのを待つ必要があります。 読者にとっては、130の接続が1ギガビット/秒だけでなく、10ギガビット/秒のポートでもあることに注意してください。





ジュニパーEX8216



計画によると、02:00に、クライアントルーティングを別のルーターに転送し、アクセススイッチを切り替えることで作業を開始しました。 ただし、接続が転送され、Cisco Catalystルーターの取り外しが開始された後、バックアップスイッチで奇妙な問題が始まりました。メモリが少なくなり、CPUが定期的に高負荷になりました。 私たちは問題を解決しようとしましたが、部分的にしか得られませんでした。 その結果、アクセススイッチの一部はネットワークにアクセスできなくなりました。 すべてを戻すことはできませんでした。 その前に同じ構成で同じスイッチが問題なく約15ギガビット/秒のトラフィックを通過し、負担さえしなかったため、問題の調査を続けます。



アクセススイッチの問題により、サイトと電話は一時的に無効になりました。 これが、顧客が私たちに連絡できないという苦情を引き起こした原因です。 しかし、すぐに問題は解決し、機能しました。



新しいジュニパーは予定された時間に発売されました。 アクセススイッチとユーザー接続の切り替えが開始されました。 接続に加えて、新しい問題が発生しました。これも私たちによって研究されています。 たとえば、「ループ」が形成されましたが、すぐには見つかりませんでした。 ループをキャッチするのに余分な時間がかかりました。 このループは、他のデータセンターのクライアントの一部をフックしました。



また、アクセススイッチの接続中、Cisco Catalystはジュニパーの機器と友達になりたくないため、各スイッチの近くにタンバリンコンソールを使用してジャンプする必要がありました。 そして再構成します。 11:00までに、予定時間から5時間遅れて、データセンターのクライアントのほとんどが稼働しており、問題はありませんでした。



しかし、それはその日の問題の終わりではありませんでした。 ジュニパーネットワークス、エクストリームネットワークス、およびシスコシステムズの製造業者のさまざまな世界観は、一見完全に標準化されたプロトコルSTPおよびMPLSに基づいており、一部のクライアントは接続されていません。 大型パケットが通過するグリッチは、16時30分までキャッチされました。 16:30に、データセンターのスイッチにアクセスするための接続が100を少し下回りました。 アクセススイッチに接続された一部のクライアントスイッチも正しく構成されておらず、ネットワークに影響を及ぼしました。 顧客との会話を明確にし、機器を再構成し、これらのポートに多くの異なるフィルターをインストールした後、問題は最終的に解決され、18:30頃に最後に影響を受けた顧客は問題なくネットワークにアクセスできました。



次は何ですか



影響を受けるすべてのお客様は、補償と快適なボーナスを受け取ります-それについて疑いの余地はありません。 前述したように、ManyByteネットワークのトラフィックは増加しています。 結果として生じる近代化により、既存および新規のお客様のニーズを引き続き満たすことができます。 ちなみに、私たちはモスクワの数少ないデータセンターの1つであり、クライアントサーバーに10 Gbit / sの速度で接続を提供しています。 新しいおいしい関税とより柔軟な関税政策を待つ価値があります。 彼らが言うように、銀の裏地はありません!



長年私たちと一緒にいて、私たちと彼らのためにこの困難な日に忍耐を示してくれたすべての顧客に感謝します!



All Articles