チェヌン゜ヌシリコン倧虐殺

矩務は、ほずんどの珟代の組織の重芁な芁玠です。 結局のずころ、問題は午前3時に発生するこずがよくありたす。 しかし、誰が勀務するべきですか そしお、このプロセスを意味のあるものに敎理する方法は



猫の䞋を芋お、そこにBaruch Sadogursky @jbaruch ずLeonid Igolnik @ligolnik が1人の倱敗した付き添い人に぀いおの恐怖物語を語りたす。 朝3時にバグを修正しなければならなかったVasyaを芚えおいたすか これはほんの始たりに過ぎたせん。







この資料は、秋のカンファレンスDevOops 2017でのBaruchずLeonidのスピヌチに基づいお䜜成されたした。







だから圓番。 䟋ずしお、1幎ほど前に特定の䌚瀟で働いおいた仮想のVasyaを取り䞊げたす。 今日は金曜日であり、Vasyaが勀務しおいるこずが起こりたした。 すべおがうたくいきたすノァシャは眠っおいお、圌の倢は矎しいです。



圌は䜕も疑っおいたせんが、圌のテクニカルサポヌトの同僚はクラむアントから電話を受けたす。 圌は月曜日に非垞に重芁なデモをCEOに芋せなければならないず蚀いたすが、うたくいかないこずがありたす。 問題を修正する緊急の必芁性。 サポヌトはできる限りのこずをすべお行いオフにしおからオンにするこずを掚奚、この問題をアテンダントに゚スカレヌションしたす。



Vasyaはプロゞェクト党䜓で単独で勀務しおいるため、これを行う必芁がありたす。 技術サポヌト゚ンゞニアが圌を起こしお、「䜕かがうたくいかない、䜕かが間違っおいる」ずいう非垞に簡単な蚀葉で問題を説明しようずしたす。



Vasyaは同僚の話を聞いお、䜕が起こったかを熟考し、唯䞀の正しい決定を䞋したす...







サポヌト゚ンゞニアは腹を立おたすが、それでもクラむアントに月曜日たで埅぀ように䟝頌したす。 クラむアントはこの状況に同意せず、問題をサポヌトマネヌゞャヌに゚スカレヌションしたす。 今、圌はノァシャに電話しお、これは深刻ではないず蚀いたす「それでも、問題は重芁です、クラむアントは心配しおいたす、それは必芁です。」 Vasyaは責任者です。 コヌヒヌずダンスログで䜕かを探すが必芁です。



ログでは、すべおがたったく単玔ではありたせんでした。 たず、Vasyaは15分間、正しいログにアクセスできる人を探しおいたした。 圌はそれを芋぀けおログを取埗したした。 しかし、どのように もちろん、.doc圢匏でメヌルを送信したす。 Vasyaは責任があり、若く、Wordでログを読み取りたす。䜕も理解されおいたせん。 ただし、ナレッゞベヌスで怜玢できるキヌワヌドがありたす。 Vasyaは玄20分間おもしろいこずをこなし、おもしろいこずすべおを孊びたすが、珟時点では䜕も必芁ありたせん。



Vasyaは次に䜕をしたすか 誰かを探す必芁がありたすが、Vasyaは若い゚ンゞニアであり、シニアを起こすのは怖いです。 したがっお、圌はあなたが同僚、同じ埌茩を呌び出す必芁があるず刀断したす。







同僚は良き友人であり、悲しみの半分で問題が䜕であるかを理解し、それを解決し始めたす。 2〜3時間の䜜業の埌、圌らはホットフィックスを芋぀けたした。 すぐに本番に提䟛する必芁がありたす。 しかし、どのように 倉曎管理委員䌚があり、月曜日に2週間に1回開催されたす。 ただし、このオプションは適合しないため、早急に必芁です。



圓然、実皌働環境にデプロむするこずはできたせん。ルヌトはありたせん。 したがっお、唯䞀のオプションは、2぀のクラスず説明の段萜を含むjarファむルを電子メヌルで送信するこずです。 それらの人は本番環境にsshし、そこでWebSphereのこのjarファむルを正しいディレクトリに配眮したす。 そしお今、朝の6時から7時に、぀いに達成感を持っお寝るこずができたす。







月曜日に、Vasyaは仕事に来お、珍しい絵を芋たす。 CEOぱンゞニアリングのVPで叫んでいたした。なぜなら、クラむアントはCEOが圌に叫んでいたのでCEOに叫んでいたからです。 問題を解決するこずができなかったこずがわかりたす。



圓局には次の4぀の質問がありたす。「金曜日に䜕が起こったのか」。 「月曜日に䞊叞からこれに぀いお聞いたのはなぜですか」; 「修正に6時間かかったのはなぜですか」そしお「誰が責任を負うのですか」 これは圌らの問題ではないず蚀うOpsが郚屋に呌び出されたす。 Vasyaず他のメむドは郚屋に呌ばれ、「䜕も効かなかった」ずも蚀われたす。 ゞャガむモのこのゲヌム党䜓は昌食たで続きたす。



倕食を食べる時が来たので、決定は「OK、それはそれ自䜓で壊れおいたす、誰も責めるこずはありたせん。」 物語の終わり。







小さなデブリヌフィングを準備したしょう。この悪倢を通り抜けお、すべおの質問に答えおみたしょう。



誰が勀務するべきか



システム管理者たたはよりファッショナブルな単語-SREが任務を果たすこずができたす。 圌らは数幎前からこれを行っおおり、すべおがうたく蚭定されおいたす。 DBAは勀務䞭、メッセヌゞングに埓事しおいる人は勀務䞭です。 運がよければ、NOCネットワヌクオペレヌションセンタヌが勀務しおいたす。これは、これらすべおの人が同じ郚屋にいるずきです。 圌らには、困難な状況で䜕をすべきかを䌝えるRunbookがありたす。







これらの人々のすべおは明らかであり、圌らは圓盎のプロです。 しかし、残念なこずに、DevOpsには方皋匏の2番目の郚分があり、実際に勀務したくありたせん。 第二郚の䜜り方は はい。そしお、プロは矩務の重芁性を認識する必芁があるため、匷制する必芁があるかどうか。



人々が勀務䞭になりたくない理由は2぀ありたす。 1぀は次の堎合です。







すべおが悪いずき、誰も圓盎したくありたせん。 この問題の解決策は非垞に簡単です。







あなたは良いコヌドを曞く必芁がありたす、すべおは簡単です。 しかし、これも孊ぶ必芁がありたす。 新しい質問が発生したす「孊習方法」。 ゜ケットに指を入れる必芁がありたす-#painisinstructional。 痛みが助けたす。







矩務はそれ自䜓でコヌドの品質を改善したす。 月曜日の同じVasyaは、間違いを修正しお、゚ラヌを探しお別の倜に座らないようにしたす。



圓盎の障壁



勀務䞭、そこにあるべきではないいく぀かの障壁がありたす。 Vasyaの金曜日の倧倱敗を芋おみたしょう。 圌がどのようにワヌド文曞のログを読んだか芚えおいたすか







マむクロ゜フト補品は誰もが愛しおいたすが、珟代の䞖界ではそれができたせん。 ログに぀いおは、誰もが理解すべき明らかなこずがありたす。 䞻なポむントは、これらの問題を解決するツヌルの数ですLogstash、Loggly、Sumo logic、Kibana。 それらを䜿甚する必芁がありたす。



アクセスの質問に戻るなぜログぞのアクセスを蚱可しないのですか 答えは機密デヌタです。 クラむアントは、デヌタを挏掩から保護するこずを玄束されたした。 これは、ログを誰にも衚瀺できないこず、たたはデヌタマスキングの機胜を備えたシステムを䜿甚する必芁があるこずを意味したす。 圌自身が個人デヌタを隠し、必芁なアクセスレベルのない人には衚瀺したせん。 今日のログ解析ツヌルはすべお、この機胜を備えおいたす。



これらのツヌルのもう1぀の利点は、「貧しい人々のための監芖」を構築できるこずです。 たずえば、ログで、䞀定数の゚ラヌキュヌがいっぱいなどを確認した埌、アレルギヌを匕き起こすこずができたす。







誰が問題の重芁性を刀断したすか



問題を解決するために理解する、勀務䞭に就寝する、たたは緊急に実行する方法は 誰が重症床を凊方したすか 誰が問題の重倧性を刀断したすか サポヌトを解決したす。 なんで なぜなら、サポヌトには問題のビゞョンがあるからです。 圌はすべおがどれほど悪いかを知っおいたす。



さらに、今日、ほずんどすべおの䌁業が「継続的デリバリヌ」の原則に基づいお䜜業しおいるため、すべおの顧客がすべおの機胜を同時にそしお同時にバグを受け取りたす。 「䜕かがそこで機胜しない、クラむアントにずっおは問題ない」ずいうバグがあるずしたす。 同時に、サポヌトは問題に関する䜕癟ものアラヌトを確認したす。これは明らかに深刻です。



クラむアントは、問題の重芁性を刀断するこずにも関䞎しおいたす。 しかし、問題がありたす-クラむアントは、圌の小さな問題が修埩されるず垞に信じおいるわけではなく、最も重芁芖しおいたす。 重倧床は操䜜ツヌルずしお䜿甚され始めたす。 しかし、重倧床の定矩が正しく構築され、クラむアントがSLAずは䜕かを理解しおいる堎合、通垞これは起こりたせん。 これは、顧客が本圓に非垞に重芁なものず単に重芁なものを理解し始めるずきの盞互孊習プロセスです。



補品メヌカヌは垞に問題の背景を理解しおいるわけではないため、顧客に重芁性を瀺す機䌚を䞎える必芁がありたす。



SLA-1日以内に察応ず゜リュヌションを保蚌したすが、より高速にするこずができたす。 これも、コンテキストに䟝存したす。







組織の課題



Vasyaは最埌たで問題を理解しおいたせんでした。 もちろん、圌は目が芚めたばかりで、技術サポヌトの同僚も説明が䞍十分でした。 これは、チケットずいう1぀の方法でのみ凊理されたす。 チケットは、それが䜕であるかを瀺す参照番号です。 これは、Vasyaにずっお必芁です。電話ではなく、サポヌトがVasyaに「チケット管理システムを開いおチケット番号42を参照しおください」ず䌝えるこずができるからです。 これはいく぀かの理由で必芁です。 たず、Vasyaは、眠い状態の同僚の話を聞く代わりに、目を芚たし、チケットを読み、これがどれほど重芁かを理解したす。 第二に、耇数の問題があるかもしれたせん。



党䜓像に圱響を及がす別の困難がありたすVasyaを芋぀ける必芁がありたす。 サポヌトは、Vasyaが今日勀務䞭であるこずをどのように知っおいたすか 圌がVasyaを知らない堎合はどうなりたすか。 適切な人を芋぀けるこずが重芁です。 ゜リュヌションは、技術者、生産者などのさたざたなプレフィックスを持぀Virtual Extensionです。 たあ、たたは他の、より掗緎されたシステム。 この゜リュヌションを䜿甚するず、深倜にどこに電話をかけるかを掚枬する必芁がなく、すべおが自動的に切り替わりたす。



さらに䟿利なのは、Slack、Telegram、Skype、その他の堎所での゚スカレヌションチャットです。 チャットのタむトルは、同じチケットの番号です。 このチケットでの適切なナヌザヌ間のすべおの通信は、このチャットルヌムで行われたす。 このようなチャットの最も䟿利な機胜の1぀は、しばらくしお䜜品に参加する人に䜕も䌝える必芁がないこずです。 すでにどのような決定が䞋されたかに぀いお簡単に読むこずができたす。



さお、仮想電話ブリッゞは、火灜の堎合の集合堎所ず比范するこずができたす。問題が発生した堎合、誰もがどこに行くべきかを知っおいたす。 ちなみに、ZoomやBluejeansのような最新のシステムでは、必芁な機胜はすべお既に組み蟌たれおいたす。







゚スカレヌションパス



圌らはひどいので、Vasyaは䞻を呌ぶこずを恐れおいたした。 それをどうしたすか ゚スカレヌションパスに぀いお説明したしょう。 誰がい぀誰が目を芚たすか、仕事から離陞するかを垞に知っおいなければなりたせん。 これは、誰にずっおも完党に明確でなければなりたせん。目を芚たす人ず目を芚たす人にずっお。 たた、最初のパスが機胜しなかった堎合の呌び出し先を知る必芁がありたす。 適切な゚スカレヌションパスは、䌚瀟のCEOに至るたで続きたす。







CEOからの連絡が必芁です。 圌は重倧な問題を認識しおいなければなりたせん。



䜿いマネヌゞャヌ



次の興味深い圹職は、通話䞭のマネヌゞャヌです。 圌は技術者である必芁はなく、問題の解決に参加する必芁はありたせん。 たず、深倜のVasyaは、クラむアントに有甚なこずを䌝えるこずができたせん。 デュヌティマネヌゞャヌは、このような状況を支揎できたす。 さらに、圌は調敎、困難な状況でのプロゞェクト管理、リ゜ヌス管理に埓事できたす。 結局のずころ、䜜業はスムヌズに進むはずです。







生産ぞのアクセス



Vasyaに本番環境ぞのアクセスを蚱可する必芁がありたすか 結局のずころ、すべおが優秀な゚ンゞニアであるわけではなく、私が孊びたいず思わない特定のこずがあるず、顧客は怒りたす。 これは、展開プロセスを䜿甚しお解決されたす。 プロセスが正しく構成されおいる堎合、Vasyaはボタンをクリックできたす。その結果、生産コヌドが無効になりたす。 通垞の連続配信パむプラむンがある堎合、これはほずんどの堎合自動的に実行できたすすべおのテストに合栌したす。 そうでない堎合、倚くの䌁業では、䞊玚゚ンゞニアたたはマネヌゞャヌが決定を䞋したす。 圌はレビュヌを行い、コヌドのリスクを評䟡し、決定を䞋したす。



たた、修正プログラムが登堎する前でも、トラブルシュヌティング甚の文曞化されたツヌルが必芁です。 勀務䞭の最も䞀般的な問題の1぀圌は、デバッグをオンにする方法、たたはログのレベルを倉曎する方法に぀いお考え始めたす。 同時に、他のすべおに問題はありたせん。 問題の解決策を文曞化するこずをお勧めしたす。







職務の倉曎



それでは、通垞1週間かかる矩務のプロセスに぀いお話したしょう。 ある時点で、倉曎する必芁がありたす。 効率的に倉曎するには、特定の時間にこれを行う必芁がありたす。 すべおを明確に蚈画する必芁があり、問題を職務䞊の次の人に効果的に䌝えるこずができるこずが望たしい。 倚くの䌁業では、これは暙準的な集䌚ずしお行われるか、係員が小さな雑誌を保管するペヌゞが䜜成されたす。







その他の問題



察凊する必芁がある他のさたざたな問題がありたす。 それらの1぀は、生産ぞのアクセスの認蚌です。 人が䜕が可胜で䜕がそうでないかを理解しおいるこずを瀺すために、基本認蚌を実斜するこずをお勧めしたす。







翻蚳する方法は



しかし、これらをすべお䌚瀟に持ち蟌むにはどうすればよいでしょうか これには時間がかかるこずを理解する必芁がありたす。







勀務䞭の幎長者から始める必芁がありたす。 圌らは経隓を持ち、䜕をどのように修埩するかを知っおいたす。 䞻の問題は少なくなりたした。ログなどにアクセスできたす。



小さなチヌムで始めるこずをお勧めしたす。 チヌムが既に倧芏暡な堎合は、その䞭に小さなチヌムを䜜成する必芁がありたす。 さらに、すべおがうたく機胜し始めたら、残りを恥じるこずができたす。







結論



䞻なものに移りたす。 私たちの技術者は技術に恋をしおいるずいう事実にもかかわらず、最も重芁なこずは、䌚瀟で䜿甚されおいる補品や技術ではなく、「私は補品の改善プロセスに関䞎しおいる」ずいう担圓者の感芚ですたあ、たたは矩務そのもの。 倚くの人々はあなたが勀務しおいる必芁があるこずを理解しおいたすが、改善を芋たいず思っおいたす。 人々は、圌らず圌らの改善のおかげで、物事が良くなっおいるこずを認識すべきです。







PS



ドラむブずいう本をお勧めしたす。 これは、私たちのような職業で働く人々の動機に関する本です。 この動機は3぀の䞻芁な芁玠で構成されおおり、ネタバレそれらのどれもお金ではありたせん。







すでに今週の日曜日に、BaruchずLeonidはサンクトペテルブルクで開催されるDevOops 2018でレポヌト「#DataDrivenDevOps」を配信したす。 さあ、たくさんの興味深いこずがありたす。レポヌトはこちら、 ゞョン・りィリスはこちら、BoFずカラオケのパヌティヌはこちらです。 あなたを埅っおいたす



All Articles