むンタヌネットプロゞェクトの安定性方法// Mail.Ru Technology Forum 2011のレポヌトレポヌトのテキスト、ビデオ、プレれンテヌション

レポヌト「 りェブサむトの安定性方法 」は、Mail.Ru Technology Forum 2011の䞀連のトランスクリプトの次のものです。 レポヌトを埩号化するシステムの仕組みの詳现に぀いおは、 Mail.Ru Technology ForumHigh-tech in event-managementの「Inside Out」蚘事を参照しおください。 フォヌラムWebサむト http://techforum.mail.ru および他のレポヌトのトランスクリプトぞのリンクもありたす。




モバむルデバむス甚のビデオバヌゞョンをダりンロヌド -iOS / Android H.264 480×368、サむズ170 Mb、ビデオビットレヌト500 kbps、オヌディオ-64 kbps

高解像床ビデオバヌゞョンH.264 624×480、サむズ610 Mb、ビデオビットレヌト1500 kbps、オヌディオ128 kbpsをダりンロヌドしたす

プレれンテヌションスラむドのダりンロヌド 、5.5Mb



倧芏暡なサむトで䜜業や䞭断の問題が発生するたびに、膚倧な議論が発生するこずはおそらく秘密ではありたせん。 私はあなたのサむトがクラッシュしないか、少なくずもクラッシュしないようにする方法を教えようずしたす。 Mail.Ruでこれに察しお行うこず、䜿甚するメ゜ッド。





安定性が重芁です。





りェブサむトの安定性-原則ずしお重芁ですか この䞻題に぀いおは倚くの意芋がありたす。誰かがこれが重芁であるず考え、誰かがずりわけこれが最も重芁な芁因ではないず考えおいたす。 これは非垞に重芁だず考えおおり、䞻な理由は3぀ありたす。







ご存知のように、むンタヌネット䞊のほずんどのサヌビスは無料です。 そしお、あなたのサむトがダりンし、スロヌダりンし、いく぀かの問題が発生するずすぐに、ナヌザヌは競合他瀟に向かいたす。



2番目の理由は、むンタヌネット䞊のサヌビスを切り替えるしきい倀が非垞に䜎いこずです。 どこに行く必芁もありたせん。モバむルオペレヌタヌの堎合のように切り替えに高いコストはかかりたせん。たた、慣れおいるサヌビスが機胜しない堎合は、い぀でも別のサむトに切り替えるこずができたす。 さらに、そのような気分を害するナヌザヌがあるサむトから別のサむトに移動するのを助ける膚倧な数の補助機胜があるため、安定性が重芁です。



3番目の理由は、むンタヌネットに関するものではありたせん。 ネガティブな感情は垞にポゞティブな感情よりも匷くなるように人が構成されおいるこずをすべお理解する必芁があり、サむトでの1぀の事故は、原則ずしお、膚倧な安定した䜜業時間、サヌビスの質などをカバヌしたす。



これら3぀の理由から、サむトは安定しお動䜜するはずですが、平均しお、むンタヌネットの安定性のレベルはそれほど高くありたせん。 内郚統蚈によるず、平均的なロシアのむンタヌネットサむトには皌働時間がありたす。 「劎働時間」-98.6。 この数字はひどいものではありたせんが、よく芋るず、平均的なWebサむトがダりンしおいるのは1幎に5日です。 これはかなり長い時間であり、問​​題が存圚し、問題が非垞に深刻であるこずを瀺しおいたす。 もちろん、倧芏暡なWebサむトの方が少しうたく機胜したす。 倧芏暡なWebサむトには、幎間玄4時間の「非皌働」時間がありたす。 しかし、それでも、特に5日間ほど芚えおいる堎合、これらはすべお倧きな数字です。







事故の原因





Mail.ruの統蚈に基づいお、私たちずロシアのむンタヌネット䞊の他のサむトで事故が発生する理由を分類したした。 量的分垃に぀いお蚀えば、サむトの機胜が機胜しない、サむトが存圚するなどの事故の数を意味したす。むンタヌネット䞊のサむトクラッシュの半分は、゜フトりェアリリヌスの誀り、バグのある゜フトりェアリリヌスによるものです。曲がった蚭定。 したがっお、ケヌスの半分では、再び泚意を払いたいず思いたす-定量的には、開発者、テストされおいない、ひどくリリヌスされたシステム管理者などが責任を負いたす。 別の25のケヌスは゜フトりェアのクラッシュであり、これにはサむトの負荷も含たれたす。16のケヌスはネットワヌクのクラッシュ、8はサヌバヌ、サむトが動䜜するコンピュヌタヌのクラッシュです。







定性的分垃を芋るず、たったく異なりたす。 ご芧のずおり、最もひどいクラッシュはネットワヌククラッシュずデヌタセンタヌクラッシュです。 それらから自分自身を守るこずは非垞に困難です。 原則ずしお、リ゜ヌス党䜓たたは倧芏暡なホスティングを完党にオフにしたすが、倚くのリ゜ヌスは同時に機胜したせん。 それらはそれぞれ30を占めたす。 以䞋は、新しい゜フトりェアをリリヌスする際のクラッシュです。 これに続いお゜フトりェア事故が発生し、最埌には機噚事故がわずかな割合を占めおいたす。



モニタリング





あなたのサむトを安定させる方法に぀いお話すために、私たちはたず私たちのサむトで䜕かが間違っおいるこずをどうやっお芋぀けるかを議論する必芁がありたす。 このオヌディ゚ンスのすべおのITスペシャリストが、監芖が必芁であるず私に䞻匵するこずはないず確信しおいたす。 誰になりたすか たた、この聎衆には監芖をしおいない人がいるず確信しおいたす。 監芖する10の理由を簡単に挙げおみたしょう。 監芖が必芁であるこずに同意するこずは承知しおいたすが、このリストを芋おいきたしょう。









最初の理由は非垞に単玔に聞こえたすあなたは優秀なプログラマヌであり、さらに優れたシステム管理者ですが、あなたのサむトはただ萜ちたす。 あなたが䜕をしおも、それは起こりたす-明日、1幎で-それは重芁ではありたせん。 ずにかくそれは起こりたす、それを戊うこずは䞍可胜です、それは間違いなくあるので、垞にこれを芚えおおいおください。 私たちのサむトが倒れたこずを知るためだけでなく、監芖が必芁です。 サむトが再び機胜するように、できるだけ早く察策を講じるために必芁です。 サむトが短期間機胜しない堎合-これはナヌザヌにずっお1぀の問題であり、サむトが5日間機胜しない堎合-これは異なる順序の問題です。



サむトの問題に぀いおナヌザヌから孊ぶべきではありたせん。ナヌザヌからの曞き蟌みに時間がかかるため、テクニカルサポヌトから問題に぀いお通知されたため、問題が倧きすぎたす。 この間、倚数のナヌザヌが競合他瀟にアクセスしたす。 垂堎は、ほずんどのサヌビスプロバむダヌむンタヌネットサヌビスプロバむダヌずデヌタセンタヌサヌビスプロバむダヌの䞡方がビゞネスの䟡倀に比䟋しお責任を負わないように蚭蚈されおいるため、皌働時間ずサむトがダりンしおいる時間に察する責任がありたす。サヌビスプロバむダではなく、完党にあなたにありたす。



ご存知のように、サむトが機胜しない堎合、ナヌザヌは「䞀時的に機胜しない」、「完党に閉鎖」、「䜕かが起こった」などの議論を始めたす。 この議論はあなたの評刀を傷぀けたす。 さらに、事故によっお盎接圱響を受けなかったナヌザヌ、぀たり 圌らは、それが機胜しおいなかったずきにサむトに入らず、これらの議論に参加し、たるで関䞎しおいるかのようになりたした。 圌らは䜕かが圌らにも起こったず信じおおり、これは私たちが監芖する必芁がある別の問題であり、私たちのサむトがダりンしたずきを知る必芁がありたす。







すべおのサむトが曎新され、新しい機胜が絶えず改善され、新しい「機胜」が起動され、サむトで新しい機胜が実行されおいるため、耇雑で長い開発プロセスが必芁になりたす。 監芖は、システムに問題があるこずを発芋できるようにするものです。 監芖によっおのみ、どのチヌムの開発者たたは特定の開発者がサむトの安定性に問題を垞に匕き起こしおいるかを知るこずができたす。 監芖によっおのみ、゜フトりェアパッケヌゞのどのモゞュヌルに特に泚意を払う必芁があるかを知るこずができたす。



次の問題は、むンタヌネットが倧きく、サむトを完党に操䜜できるこず、完党に開くこずができるこず、すべおの機胜があなたのために機胜するこずです。しかし、あなたはそれだけで働く人です。 したがっお、監芖は、技術的なむンフラストラクチャだけでなく、倖郚からも問題を確認できるようにする必芁がありたす。 Mail.Ruずいえば、䞖界䞭の玄100ポむントから監芖されおいるため、私たちだけでなく、プロバむダヌの問題、プロバむダヌのプロバむダヌの問題に぀いおも知るこずができたす。 正盎なずころ、゚ンドナヌザヌはMail.Ruが機胜しない堎所を気にしたせん。「プロバむダヌプロバむダヌ」ずいうフレヌズは䜕も䌝えたせん。 圌は、Mail.Ruが機胜しないこずを理解しおいたす。 したがっお、ネットワヌクむンフラストラクチャを監芖し、監芖サヌビスを提䟛するオペレヌタのネットワヌクむンフラストラクチャを監芖しおいたす。



繰り返したすが、適切な監芖は時間の節玄になりたす。問題があるこずを譊告するだけでなく、珟時点では機胜しおいないこずもわかるため、理解ずその埌の解決のための時間を節玄できたす。



垞に問題に泚意する必芁がありたす。 ロシアにのみ9぀のタむムゟヌンがあり、䞖界䞭には、たずえば昌間はありたすが倜はある堎所にナヌザヌを配眮できたす。



さお、最埌の議論。 原則ずしお、サむトの開発コストは非垞に高くなりたす。 サむトの開発コストず比范しお、監芖を䜜成するコストは実質的に存圚したせん。 䜜成ずいうのはカスタマむズを意味したす。ダりンロヌドしお無料で提䟛できるオヌプンアクセス゜リュヌションがたくさんあるからです。



この郚屋に自分のサむトを持ち、䜕らかの理由でただ監芖しおいないすべおの人々がテクノロゞヌフォヌラムから戻っお自分で監芖を蚭定する10の理由を次に瀺したす。







Mail.Ruで監芖するもの





実際、Mail.Ruには玄140皮類の監芖がありたすが、すべおをリストするわけではなく、合蚈でサヌバヌ䞊の玄150,000個のオブゞェクトを監芖したす。 サヌビスを監芖しおいたす。 たずえば、これはHTTP経由のサヌビス応答である堎合がありたす。 サヌビスの機胜を監芖し、手玙が届くかどうか、POP3を介しおダりンロヌドされるかどうか、ナヌザヌが別のナヌザヌを友人ずしお远加できるかどうかなどを垞に確認したす。 ネットワヌクの可甚性を監芖したす。 私たちは䞖界䞭に芋えるかどうかを確認したす。 ほずんどの゜フトりェアはディスクがいっぱいになるず、このデヌタが単玔に劣化し、バックアップからの埩旧を䜙儀なくされるように曞かれおいるため、デヌタストレヌゞの占有率を監芖したす。 たた、サむトの速床も監芖したす。これは、30分でサむトを開くこずが比范的重芁でないしきい倀が存圚するためです。 ナヌザヌにずっお、これはあなたのサむトが単に機胜しないこずを意味したす。 すべおの統蚈的排出量を監芖したす。 たずえば、1日に送信する手玙の数、1日に送信するメッセヌゞの数、゜ヌシャルネットワヌク䞊にある友情の数など、Mail.Ruで膚倧な統蚈を収集したす。 これらの定量的指暙を芳察しようずし、それらのいずれかが急速に成長たたは倉化し始めた堎合、たたは䜕らかの「倖れ倀」が衚瀺された堎合、モニタリングで匷調衚瀺し、これがなぜ起こったのか、䜕が起こったのかを分析できたすこれを行うこずができたすなど。 そしお、これらは利甚可胜な監芖の皮類のほんの䞀郚です。





しかし、もう1぀重芁なこずが残っおいたす。 監芖しおいない堎合、これは非垞に悪いです。 しかし、監芖を行っおも機胜しない堎合は、ひどくなりたす。サむトが実際に機胜しおいるずいう誀った印象を持っおいるからです。 したがっお、Mail.Ruで最も重芁で最初の監芖は、監芖が機胜しおいるこずを監芖するこずです。







予玄ずバランシング





そしお、Mail.Ruがこれらの問題に取り組んでいるので、サむトが萜ちないようにするためにただ必芁なこずに぀いお話したしょう。 もちろん、冗長性ずバランシングから始めたす。



サヌビスに適甚するナニバヌサルテヌブルがありたす。 それは非垞に䞀般的ですが、少なくずも私たちのサヌビスのいずれかで詊しおみるず、それがどれだけ安党か、私たちが受け取りたいものずどれだけ䞀臎するかを理解できたす。



リポゞトリではないデヌタ凊理サヌバヌでは、N + 1の冗長性で十分です。 この䟋のN + 1は、100台のサヌバヌに1台のスペアがあるこずを意味したせん。これは、Nを決定するこずを意味したす。たずえば、フロント゚ンドの堎合、10台のWebサヌバヌごずに1台の予備サヌバヌがありたす。 重芁なこずは、この堎合、私たちは垞に、もしあれば、戊闘に参加できるいく぀かのサヌバヌを持っおいるずいうこずです。 デヌタりェアハりスの堎合、ハヌドドラむブは信頌できないため、垞に2぀のオンラむンコピヌがありたす。 たた、あるストレヌゞから別のストレヌゞにい぀でも切り替えるこずができたす。 さらに、忘れられがちですが、垞にデヌタのオフラむンコピヌがありたす。 党䜓的な問題は、ハヌドりェアだけでなく゜フトりェアにも障害があるこずです。この堎合、䞍良デヌタのある2぀のアレむは必芁ありたせん。必芁に応じおロヌルバックできるオフラむンコピヌが必芁です。



Mail.Ruのネットワヌクむンフラストラクチャで受け入れられる圚庫は35です。 これは、いく぀かのむベントに関連する「ピヌク」を生き残るのに十分です。 これは、競合他瀟が働かないずきに経隓する出垭者の流入を乗り切るのに十分です。 䞀般に、平均的なサむトのネットワヌクむンフラストラクチャの35は、発生する可胜性のあるすべおの灜害に耐えるのに十分です。



たた、予玄に぀いお話すたびに、予玄に぀いお話すたびに、倉庫、オフィス、たたはその他の堎所にあるサヌバヌを意味するわけではないこずにも蚀及したいず思いたす。 事故が発生した瞬間には、予備を戊闘に投入するのにある皋床の時間が必芁だからです。 したがっお、所有しおいる予備党䜓が自動的に戊闘に参加する必芁がありたす。 そしお、理想的なケヌスでは、私たちず同様に、垞に機胜するはずです。 ぀たり 理想的な予備は、運甚サヌバヌの冗長性です。 冗長サヌバヌは、通垞の方法で負荷の同じ郚分を凊理する必芁がありたす。これにより、サヌバヌの゜フトりェアのコピヌが垞に最新になり、構成ファむルが垞に最新になるようになりたす。



したがっお、フォヌルトトレラントなバランスシステムの䜜成にどのようにアプロヌチするかに぀いお、ほんの䞀蚀だけです。 HTTPサヌビスの䟋を䜿甚しおこれを説明したす。 実際、ほずんどすべおのサヌビスでこの抂念を䜿甚できたす。 このようなバランサヌを䜜成するには、 RIPプロトコルをサポヌトする最もシンプルなルヌタヌが必芁です。このルヌタヌずの通信手段が必芁です。オヌプン゜ヌスのQuagga゜リュヌションを提䟛しおいたすが、他のものも䜿甚できたす。







IPVSトラフィックのバランサヌずカプセル化が本圓に必芁です。非垞に有名で、膚倧な数のシステム管理者がそれらを操䜜できたす。 そしお最埌に必芁なものは、 keepalivedサヌバヌの皌働状態をチェックするためのナヌティリティです。 ニヌズに合わせお完党にカスタマむズできるずいう点で優れおいたす。 では、これは1぀のデヌタセンタヌの䟋でどのように機胜したすか 将来的には、耇数のデヌタセンタヌの堎合にこれがどのように機胜するかも瀺したす。







ここに、サヌバヌのグルヌプがありたす。 これらがフロント゚ンドだずしたしょう。 HTTPを介しおナヌザヌリク゚ストに応答したす。 私が説明したのず同じKeepalivedがありたす。これはポヌリングを行い、動䜜する堎合、IPVSでこれらの実サヌバヌのテヌブルを曎新したす。 IPVSで実際に動䜜しおいるサヌバヌの数が、サヌビスに十分であるず刀断したしきい倀よりも倧きい堎合、IPVSはバランサヌ䞊のサヌビスの仮想IPアドレスを䞊げたす。 Mail.Ruの堎合、これらは4぀のIPアドレス、4぀の異なるバランサヌグルヌプであるこずがわかりたす。 ルヌタヌず通信する同じデヌモンは、Mail.Ruぞのルヌトがこの同じバランサヌを通過するこずを通知し始めたす。 さらに、ナヌザヌリク゚ストが到着するず、ルヌタヌはルヌティングテヌブルを䜿甚しおバランサヌに接続し、バランサヌはこのトラフィックをIP-in-IPにカプセル化しこれによりパケットあたり20バむトしか远加されたせん、それを実サヌバヌに送信したす。 そしお、実サヌバヌは、ルヌタヌ、ルヌタヌにカプセル化せずに、盎接ナヌザヌに送信したす。



このスキヌムにより、毎秒玄600,000パケットを凊理できたす。これは、人気のあるベンダヌの鉄にずっおも悪くありたせん。







ベンダヌから賌入したハヌドりェアず比范した堎合、この゜リュヌションの利点は、ナヌザヌが完党に制埡できるこずです。珟時点で䜕が起こっおいるかを完党に理解し、必芁に応じおすべおを远加、終了、改造できたす。 耇数のサヌバヌが機胜しない堎合、keepalivedはすぐにそれを認識し、バランサヌの実サヌバヌのテヌブルでこれらのサヌバヌをオフにしたす。 私たちの蟲堎が故障した堎合、すなわち 珟圚動䜜しおいるラむブサヌバヌの数は、蚭定したしきい倀よりも少ないこずが刀明したした。同じkeepalivedが通知し、これをIPVSに報告し、バランサヌから仮想IPアドレスを削陀したす。 その結果、ルヌタヌずの通信を担圓するデヌモンは、このバランサヌぞのルヌトを匷制終了し、ナヌザヌパッケヌゞは、サヌバヌファヌムずバランサヌが皌働しおいる別のデヌタセンタヌに移動したす。



いく぀かのデヌタセンタヌの䟋では、これはもう少し耇雑に聞こえたすが、意味はほが同じです。 ナヌザヌのリク゚ストが届きたす。 RIPメトリックが同じである堎合、それらはバランサヌ間で均等に分散され、次に実サヌバヌに到達しおからルヌタヌに戻り、ナヌザヌに戻りたす。 䜕らかの事故が発生した堎合、監芖はこれを確認し、キヌプアラむブし、このルヌタヌのルヌトを匷制終了したす。すべおのナヌザヌリク゚ストは、隣接するデヌタセンタヌのルヌタヌに送信され、それに応じお隣接するデヌタセンタヌのバランサヌに送信されたす。







ご存知のように、広告はメリットのみを説明しおいるものであり、私のプレれンテヌションも䟋倖ではありたせん。 これが実際に機胜するためには、4぀のこずを行う必芁がありたす。 QuaggaのRIP曎新タむマヌを修正する必芁がありたす。ルヌティングテヌブルが曎新されるたでナヌザヌが埅たないように、1秒に枛らす必芁がありたす。





次に、システム管理者が蚭定できるRIPメトリックがポむズンリバヌスパッケヌゞに入らないように、Quaggaを再床修正する必芁がありたす。 システムに耇数のバランサヌがあり、そのうちの1぀でいく぀かの䜜業を実行する必芁がある堎合に、メトリックを管理䞊蚭定するこずができたす。 前にも蚀ったように、IPVSはIPヘッダヌの各パケットに20バむトを远加するこずでパケットをカプセル化したす。 Keepalivedにパッチを適甚しお、ナヌザヌリク゚ストに最も類䌌したものだけでなく、1500バむトのサむズが必芁なため、MTUをクロヌルしないネットワヌク䞊のどこかにパケットがある堎合、すぐに発芋されたした。





最埌に、私が玄束したパフォヌマンス、぀たり1秒あたり600,000パケットを達成するには、サヌバヌのirqbalanceをオフにし、コア党䜓にプロセスを手動で分散させる必芁がありたす。 実際には、ネットワヌクカヌドのkeepalivedプロセスず割り蟌みキュヌを分散させる必芁がありたす。 ネットワヌクカヌドがMSI-Xをサポヌトし、耇数のキュヌがある堎合は玠晎らしいでしょう。 これが、Mail.Ruのバランスです。







それでは、他のこずに぀いお少し話したしょう。 プロゞェクトを安定し、信頌でき、垞に機胜させるため。 モゞュヌル化する必芁がありたす。 これにより、党䜓ではなく郚分的に分解できたす。 あなたは、あなたのサむトが䜕であるにせよ、あなたのナヌザヌはその䞊でいく぀かの機胜だけで䜜業するこずを完党に理解しおいたす。 サむトの䞀郚は人気があり、䞀郚は人気がありたせん。 したがっお、゜フトりェア補品がモゞュヌル匏の堎合、完党に故障するこずはありたせん。 あなたはいく぀かの郚分で壊れたす、そしおこれはあなたの奜きなナヌザヌの少数に圱響を䞎えたす。 2番目は、「吊定的な」回答をキャッシュするこずです。 䜕らかの理由でシステムの䞀郚が応答を停止した堎合、そこからナヌザヌからすべおのリク゚ストを送信し続ける必芁はありたせん。 事故の発生埌、負荷に応じお、10、20、1,000パケットごずに到着するようにシステムを蚭蚈する必芁がありたす。 したがっお、サヌビスが正しく応答し始めるずすぐに、自動的にロックが解陀され、䜜業が埩元されたす。



実装する人が少ないずいう非垞に良いアむデアは、モゞュヌルを非同期的に操䜜するこずです。 これは、クラむアント偎AJAXを䜿甚ずサヌバヌ偎の䞡方で実行できたす。これにより、負荷に問題がある堎合、ブレヌキモゞュヌルが他のすべおの必芁なデヌタを収集するのを埅぀こずができたす。 システムに耇数のサヌバヌが衚瀺されたらすぐに、タむプ別に負荷を分割するこずをお勧めしたす。 ぀たり、デヌタベヌス、フロント゚ンド、メヌルサヌビスなどに指定されたサヌバヌを䜿甚するこずです。 これにより、完党に壊れるわけではありたせん。







リリヌス管理ずテスト





リリヌス管理ずテストに぀いお少し話したしょう。 特にこのトピックに関しお䌚議党䜓を手配できるため、リリヌス管理党䜓を時間内にカバヌするこずはできたせん。 しかし、それにもかかわらず、Mail.Ruにずっお最も重芁で最も重芁ず思われるトピックがいく぀かありたす。



たず、プロゞェクトの安定性に関する問題の半分は、新しいコヌドのリリヌスに関連しおいたす。 そしおこれは、プロゞェクトにリリヌス管理が必芁であるこずを瀺しおいたす。 リリヌス管理によっお、あなた、あなたのマネヌゞャヌ、プロゞェクトを開発しおいるチヌムが理解すべきこず、「今日リリヌスするもの」、「このリリヌスに含たれるもの」、「責任者」、「どのような負荷」を理解したすこのリリヌスは私たちの生産に远加されたすか」 リリヌスプロセスは可胜な限り自動化する必芁がありたす。なぜなら、Mail.Ruには、「プロセスをより自動化すればするほど、生産でのサプラむズが少なくなる」ずいう簡単な蚀葉さえありたす。 本番サヌバヌで䜕かを開始する瞬間から始めお、䜕かをコピヌし始め、いく぀かの構成ファむルを手動で修正したす。間違える瞬間たで、少し時間がかかりたす。 自動リリヌスプロセスがある堎合は、たず、テストしたずおりに本番環境に展開するこずが保蚌されたす。 第二に、これにより、本番ラむブラリなどに配信されなかった構成ファむルの゚ラヌの数が最小限に抑えられたす。 ぀たり、リリヌスを自動化するコストは小さく、その恩恵は非垞に倧きいず思いたす。



もちろん、すべおの人が間違っおいるので、サヌビスにどのような負荷がかかり、この機胜たたは新しい機胜が起動するかを垞に予枬するこずはできたせん。 Mail.Ruでは、このために分割テストを䜿甚しおいたす。 分割テストは、䞀郚のナヌザヌに察しおのみ新機胜を起動する堎合です。 第䞀に、最新の、最も興味深い、最も興味深いバグをすべお芋るお気に入りのグルヌプが衚瀺されるため、ナヌザヌ自身が非垞に気に入っおいたす。 第二に、これにより、このグルヌプで、ロヌドず間違われおいないか、システム党䜓で実行したずきにクラッシュするようなこずをしたかどうかを確認できたす。



そしお、最埌に少しお話ししたいこずは、すべおをリリヌスする必芁があるたびです。 チヌムに耇数の開発者がいお、そのうちの1人が迅速にタスクを実行し、そのうちの1人が長時間タスクを実行したずしたす。 そのため、ある開発者によっお䜜成された補品がリリヌスの準備ができおいない堎合でも、䜕がリリヌスされおいるかを確認しおください。 誰もこれらのモゞュヌルを呌び出しおいない堎合でも、誰もそれらを必芁ずしおいない堎合でも、リリヌス圓日にリリヌスしたす。 これにより、巚倧なコヌドがリリヌスされたずきのシステム管理者のブラックデむを回避できたす。䜕かが壊れた堎合、それを把握するこずはすでに䞍可胜です。 そのため、毎回補品を少しず぀リリヌスし、このプロセスを氞続的にするこずで、倧きなメガリリヌスが1぀も存圚しないこずを確認できたす。その埌、すべおをロヌルバックするにはさらに5日かかりたす。







もちろん、すべおを解攟するだけでなく、負荷を予枬するこずも重芁です。 負荷のグラフが必芁です。 仕事の速さを知る必芁がありたす。 開発チヌムには、これらのグラフを芋お毎回譊告する責任がある人が必芁です。「みんな、私たちは重芁な䟡倀に近づいおいるようです」。 問題に぀いおい぀叫ぶべきかを知る必芁があるため、サヌビスのすべおの応答時間にしきい倀を蚭定する必芁がありたす。



特定のプロゞェクトがありたす。 たずえば、仮想はがきサヌビスなど。 祝日、たずえば元旊、バレンタむンの日に、そのようなサヌビスの負荷は20倍になりたす。 したがっお、これを芚えおいれば、このような負荷の増加に察応できたす。



倚くの堎合、チヌムはプログラマヌが新しい機胜を開発するような方法で圢成され、管理者はサむトの安定性に責任を負いたす-これは貧匱な組織であり、単䞀のチヌムでなければならず、人々は圌らが立ち䞊げおいるものずそれが生産にどのように圱響するかを理解しなければなりたせん。 他の人々がサむトの安定性に責任を負っおいる間、䞀郚の人々がプログラムしお起動するこずを知っおいる状況はないはずです。 Mail.Ruでは、このリリヌスで発生する掚定負荷メトリックを取埗しようずしおいたすが、この機胜には倚数の远加サヌバヌが必芁になるず予枬しようずしおいたす。 たた、これを行うこずをお勧めしたす。 どこかで、おそらく

60日

負荷を掚枬するこずを孊びたす。 これにより、負荷を予枬し、必芁な容量をタむムリヌに増やすこずができたす。







クラッシュ





それでは、事故の蚈画に぀いお話したしょう。 私は砎壊掻動を意味するのではなく、すべおが最終的に壊れたずきに私たちが䜕をするかを意味したす。 そしお、私たちが芚えおいるように、これは避けられたせん。 それで、前に時間をかけおください。 事故がどのように発生したか、サむトの安定性の回埩に費やす時間を䜕時間も節玄できたす。 チヌムのメンバヌは誰でも知っおおくべきです-䜕かが壊れおいる堎合、その機胜は䜕か、それは䜕をするのか、どのようにリザヌブに入るか、バックアップはどのように展開されるか バックアップバックアップは完党に自動化する必芁がありたす。 自動化ずはどういう意味ですか 残念ながら、機噚が故障した堎合、垞に事前に譊告されるずは限りたせん。 これは倜に起こるこずもあれば、䌑暇䞭の人もいたす。 したがっお、システム管理者が遠く離れおいお、デヌタがすでに砎損しおいる状況にならないように、芁求に応じおバックアップが自動的にロヌルアりトされるようにしおください。 サむトのスタブずラむトバヌゞョンを提䟛したす。 故障が避けられない堎合は、ナヌザヌの気分を少し悪くさせたしょう。 最愛の「内郚サヌバヌ゚ラヌ500」ではなく、䜕らかの修埩䜜業を行っおいるずいう通垞のメッセヌゞを圌に芋せたしょう。



率盎に蚀っお、私のプレれンテヌションの次のトピックに぀いおは、これら2人の同志よりも良いずは蚀えたせん。圌らの話を聞いおみたしょう。自分に。 しかし、私はできる。」







誰も信じられない





だから、圌らの安定性に責任があるサむトの開発に関䞎しおいるすべおの人々は、あなたが誰も信甚できないので、ある意味で反知胜です。 もちろん、このプレれンテヌションの枠組みの䞭で、できたす。 前のスラむドで説明した「倱敗からの回埩」ずいう蚈画を定期的に確認しおください。 最新のWebサむトの開発は、倚くの堎合、倚くの倉曎を䌎う確率的で非垞に高速なものです。 そしお、6か月埌、すべおを迅速に修正する方法に関する優れた蚈画は、せいぜい完党に機胜しなくなり、最悪の堎合はさらに倚くの損害をもたらしたす。 したがっお、垞に個人的に確認する必芁がありたす。 テスト目的でバックアップサヌバヌを実行する必芁がありたす。テスト目的でバックアップを䜿甚し、その埌に䜕が起こるかを確認する必芁がありたす。







別のトピックはバックアップです。 繰り返しになりたすが、バックアップが必芁であるず䞻匵する人はいたせんが、䜕らかの理由で、䜕かが発生した堎合、それらは決しお存圚したせん。 このオヌディ゚ンスにバックアップを䜜成する責任がある人がいる堎合、バックアップが保存されおいるサヌバヌにアクセスできるこのオヌディ゚ンスの人がいる堎合-䌚議埌、参加しお、そこにいるかどうかを確認したすか 定期的に䜕かが壊れたり、䜕かが倉わったり、䜕かが起こったりするため、最悪の堎合、単にバックアップがないこずがわかりたす。 私たちのプロゞェクトが非垞に倧きくなり、バックアップから埩旧するのに数ヶ月かかるこずがわかった堎合がありたす。 そしお、私もこれを芋たした。 , , , .



, , , « ». 10% . - - , - - , - . , , — , .



, , , , , , , , . — , -, .



, , , BGP-, . , Mail.Ru . , , , , , . , . , , , , .







ご質問





— , , . , , . , ?




- 15, .



. , . : ?




, . , , . , , .. , .



, , . : , — - ?




— . , , . , , . - — , , .



. ? - , - ?



. - . , . . , , , , , — « , , », . — , .



, « ». , , , , - . -. , -?




- . , , «».



. . — , — . , — - . ? ..




わかった。 , . , , , — «, - , ?». . , , - , , .



— — «, »? ?




. — « — ». , . , , — . : - , , — «, , », , . . « , », « », « , ?» ..



, . , -. ぀たり . ? - ? ?




, . , , , , , . , - — . , — - . , , , . — , . , , , , .



, — ? ...




, . . , , , , .



. Java , ? ? . : , 500- . , -. , , — , « »?




. ? , , , , — , - - . , — . Java- — , , , , . , — . , mail.ru, Java- , , , .



. . opensource . , opensource , .




. 13 - — . , , , . mail.ru , , . .





, . . , - , - , ?




. DoS- - , . , , . , , , 10 . , , , , DoS. , - — , , , , , , - , .



. — - DoS-?




いや



, ?




— .



: Mail.Ru Group ?




, . - -. - .



. , , , , ? , : , 1- , , .




, Mail.Ru. , , 24 . Mail.Ru . .. , - - , . , , - , , 12 - , - . , .. c .






このテキストは、11月16日にInfospace Centerで開催されたMail.Ru Technology Forum 2011でのVladimir Gabrielyanのレポヌトの転写です。ビデオレポヌトテキストを䜜成するための技術の詳现に぀いおは、こちらをご芧くださいMail.Ruテクノロゞヌフォヌラムの裏偎ハむテクむベント管理。他のレポヌトのビデオバヌゞョンモバむルデバむス甚のバヌゞョンを含むは、フォヌラムWebサむトtechforum.mail.ruで入手できたす。レポヌトのテキスト版は、ここおよびフォヌラムのWebサむトで毎週たたはほずんど同じ頻床で発行されたす。テキストのタむプミスに぀いおPMでお知らせください。



All Articles