Netflixサービスシステム管理者は、サービスアーキテクチャを改善し、エンドユーザーに対する技術的な問題の影響を軽減する興味深いソリューションを見つけました。
同社は、「Chaos Monkey」(Monkey of Chaos(Houseと混同しないでください!))と呼ばれる内部サービスを作成して開始しました。これは、サービスを提供するサーバー上のAWSインスタンスまたはプロセスをランダムに強制終了します。 奇妙なことに、このアプローチは害を与えませんが、技術者が数匹の
- すべてのシステムノードに冗長性があります
- 1つのサーバーまたはプロセスが落ちても、サービスの提供に問題は発生しません。たとえば、サイト上のエラーやデバッグメッセージなど、小さなものでも
- システム管理者は、各サーバーがクラッシュしたときに何が起こるか、そしてそれがシステム全体にどのように影響するかを正確に知っています。
- システム管理者はサーバーに関する問題を解決した豊富な経験があり、ほとんどすべての問題には既に文書化された解決策があります
この(逆説的ではないにしても)元のアプローチは、会社の莫大なお金と時間を節約しました。 そして、habragursはこれについてどう思いますか?