それはすべて最近始まった。 設置したばかりの(1か月未満の)Ciscoルーターが突然気分を害して内部に侵入しました。 彼はあまりにも多く残したので、外部刺激への反応を完全に停止し、自分を通るトラフィックは恩知らずで価値のないものだと考え、一般的には関与できませんでした。
ルーターを再起動した後の最初の考え:一部のジョーカーは別のuberプログラムを起動することにしました。 さて、または誰かのラップトップが夢中になりました-それも起こります。 ただし、トラフィックの詳細な調査(netflow、トリッキーなブロードキャストのtcpdump盗聴)では何も得られませんでした。 さらに、クライアントポートのストーム制御は機能しませんでした。
その間、わずか5分間の再起動後に動作していたルーターが再びハングしました。 就業日の中で注意してください。 「幸いなことに」テレフォニーは同じルーターを通過しましたが、これが苦しい同僚の叫びから私たちを救ったのです。
うーん...-厳しいシベリアの男性は言った。
すべてのクライアントをオフにし、一度に1つずつオンにします-静かに。 私たちは尋問を中毒から始めます:誰が、何を、どこで...黙って応答します。 私たちは知りませんでした
そして、そのような問題が、ルータが最近変更された他のブランチで、異なる時間に異なる負荷で何度も繰り返されなかった場合、偶然に起因する可能性があります...
当然、問題が一意ではないことが明らかになるとすぐに、Cisco TACでチケットが開かれ、IOSバージョンの
TACとのコミュニケーションと並行して、スタンドを組み立て、「実験室で」状況を再現しようとしました。 大量のログを分析した後、プロキシはoutlook.comでメールボックスを開くときにフリーズが発生したことを発見しました。
くそーホームズ、しかしどのように?!
スタンドでは、問題は100%再現されます。 outlook.comアカウントにログインすると、音が鳴らずにルーターが停止します。 ルーターはクラッシュダンプを残しません。あなたが尋ねても、起動されたウォッチドッグは状況を保存しません-ルーターはしっかりとハングし、電源のコールドリスタートだけがそれを保存します。 アクティブ化された設定を1つずつオフにし、トラフィック検査をオフにすると、すべてが正常に戻ることがわかります。 IOSのいくつかのバージョンを変更しています-「このモデルのTACスペシャリストが推奨する」場合でも、動作は同じです。 さらに掘り下げていくと、nbar(Network Based Application Recognition)が原因であることがわかります-さまざまなQoSポリシーの適切なカラーリングとアプリケーションについて、トラフィックのタイプ(音声、ビデオ、データなど)を認識できるモジュールです。
チケットを実施したTACエンジニアは、このようなニュースに多少ショックを受けましたが、必要な情報をすべて削除し、プログラマーに渡しました。 彼らの答えは豪華でした:
「割り込みレベルでループが発生した場合のISRルーターの一般的な動作です。
ルーターの割り込みサービスルーチンが中断または停止した場合、ルーターがハングする可能性があります。
コンソールが応答しなくなるため、サービスを復元するには手動でリロードする必要があります。
ルータは、コマンド「scheduler isr-watchdog」で構成できます(以下の例に示すように)
そのような場合を検出するためのメカニズムをアクティブにするため。
また、そのようなイベントが識別された場合、ルーターのリロードをトリガーします。
つまり すべてが整然としています。 誇り高い猫は静かに死にます。
また、TACエンジニアは、バグリストにこの問題が見つからないと答えました。 それは内部的なものであり、再び大衆を興奮させるのはFIGではありませんが、プロトコルパック(このnbar自体の一連の署名とルール)を静かに更新する方が良いでしょう。 もちろん、それは正しいかもしれませんが、一方で、既知のバグにこの問題がないため、解決策の検索が実際にコーヒー畑で占いになり、ルーターのすべての機能を一度に1つずつ無効にします(そして鉄片のコストを考慮すると、適切なラボが手元にあります)ないかもしれません)。
プロトコルパックを更新すると、すべてが正常に戻り、1か月間(pah-pah-pah)、ルーターに問題はありません。
ここにそのような金曜日の物語があります。 したがって、nbarを使用し、ファームに前述のルーター(ISR G2がある場合)がある場合は、ユーザーが何らかの「興味深い」サイトを開くことを決定するまでプロトコルパックを更新することを強くお勧めします。