稼働時間2日目:ロシアのIT企業が災害に対処する方法について話します

3週間後の13日金曜日、モスクワでのDeworkacyコワーキングで、第2回Uptimeコミュニティ会議が開催されます。トピックはITインフラストラクチャのクラッシュです。 300席しかないため、参加は無料です。カットの下には登録へのリンクがあります。



画像



ちょっとした歴史



それをカンファレンス(およびコミュニティ)と呼ぶアイデアは、ピッツバーグのCode&Supplyのメンバーと同時に私たちにもたらされました。 それらのドメインuptime.eventsは2017年3月28日に登録され、 uptime.communityは3月14日に登録されました。 最初の会議は4月に開催されました。 ビデオをご覧ください



私たちと同様の会議が8月にピッツバーグで開催されました。私はボランティアのサウンドエンジニアで、少し話をしました。



画像



Uptime Day 2で何が起こるか



そのため、10月13日にモスクワでBadoo、Carprice、Revision、ITSumma、Bitrix24の従業員の生活で起こったIT災害について話し合います。



私の報告は「事故管理と事故ライフサイクル研究」です。 20世紀の技術進歩の裏側は、多数の技術的災害でした。 負荷の高いプロジェクトの運用は、航空、医療、大規模産業で毎日行われている技術プロセスと同じです。 これらの分野では、何十年もの間、主要な事件を調査し、事故を回避するために事故の原因を詳細に分析する慣行がありました。 しかし、今日の私たちの地域では、すでに通過した間違いの繰り返しを防ぐ一般的な慣行はありません。 各企業は独自の方法でこの問題に取り組んでおり、同僚が何百回もつまずいたのと同じレーキを踏んでいることを知らないことがよくあります。



350の顧客のサイトを24時間サポートしているため、1日あたり平均10件の重大な事故に直面していますが、その約半数は人的要因によるものです。 このような事故を回避する方法について、双方の専門家を養成することが重要です。



実生活の事故を例に、ITSummaが既に発生したインシデントを解決するために使用する技術と技術を示し、さらに重要なこととして、将来それらを防止します。



以下のプロセスを検討してください。



1.事故の除去中にチームメンバーが互いに対話する方法を修正します。

2.死後の事故の作成と分析。

3.私たちと顧客のための推奨事項と規制の開発。

4.インシデント管理用のソフトウェアの開発。

5.分析結果を毎日の開発およびサポート手順に統合します。



13日の金曜日は、災害について話すのに最適な日です。 参加は無料です、 登録してください



All Articles