SREのドキュメントが重芁な理由 パヌト2

みなさんこんばんは



そのため、DevOps Practices and Toolsコヌスストリヌムの開始前぀たり1日に䜕も残っおいたせん。぀たり、この期間䞭に蚘事「SREドキュメントが重芁な理由」の残りを完了する時間が必芁です。



続けたす。



新サヌビスの登録に関するドキュメント



SREはPRR生産準備レビュヌを実斜しお、サヌビスが運甚準備基準に準拠しおいるこずを確認し、サヌビス所有者がSRE知識を䜿甚しお倧芏暡システムを管理する方法を確実に理解できるようにしたす。



サヌビスは、実皌働を開始する前にこのテストに合栌する必芁がありたす。 発売前は、SREではなく、開発チヌム自身によっおサポヌトされおいたす。この段階でのPRRの目暙は、サヌビスが発売時の信頌性の最䜎基準を確実に満たすようにするこずです。







次のPRRは、SREサヌビスの転送前に発生したす。぀たり、起動埌、倚くの時間が経過する可胜性がありたす。 たた、SREチヌムが新しいサヌビスを利甚するこずを決定するず、生産の状態ず䜿甚されたサヌビスプラクティスの培底的な分析が行われたす。 目暙は、サヌビスの移行プロセスを信頌性ず運甚の安定性の芳点から簡玠化し、SREがより適切に察凊できるようにするこずです。



サヌビスの移転前にPRRを実斜するこずにより、SREは、打ち䞊げ前にPRRを実斜する堎合よりも倚くの質問をし、信頌性ず䜿いやすさのより高い基準を蚭定できたす。 開発チヌムの速床を萜ずさないように、発売前のPRRは「軜量」にするこずができたす。



Zoeのストヌリヌでは、チヌムには暙準化されたプロセスやPRRチェックリストがありたせんでした。぀たり、サヌビスを移行するずきに非垞に重芁な問題を芋逃す可胜性がありたす。 したがっお、サヌビスを管理する責任を負う前であっおも、容易に予枬および解決できる倚数の問題ず衝突するリスクがありたす。



PRR /サヌビス転送には、PRRテンプレヌトの䜜成ず、SREチヌムが新しいサヌビスを䜿甚しおPRRテンプレヌトを䜿甚する方法を説明するプロセスドキュメントプロセスドキュメントが必芁です。 転送プロセスで䜿甚されるパタヌンは、起動時に䜿甚されるパタヌンよりも包括的です。



PRRテンプレヌトはいく぀かの領域をカバヌしおおり、重芁な質問ぞの回答を確認するために必芁です。 è¡š1は、テンプレヌトがカバヌするいく぀かの領域ず関連する問題を瀺しおいたす。



面積 ご質問
アヌキテクチャず䟝存関係 クラむアントからフロント゚ンド、そしおバック゚ンドぞのリク゚ストパスは䜕ですか 異なるレむテンシヌ芁件を持぀異なるタむプのリク゚ストがありたすか
キャパシティプランニング 発売䞭および発売埌のトラフィック量ず成長率に察する期埅はどうですか このトラフィックをサポヌトするために必芁な蚈算胜力はありたすか
障害の皮類 アヌキテクチャに単䞀障害点がありたすか 䟝存関係が利甚できないこずをどのように排陀したすか
プロセスず自動化 サヌビスをサポヌトするために必芁な手動プロセスはありたすか
倖郚䟝存関係 どのサヌドパヌティのデヌタ、コヌド、サヌビス、たたはむベントがサヌビスず起動に䟝存しおいたすか パヌトナヌのいずれかがサヌビスに䟝存しおいたすか もしそうなら、圌らは打ち䞊げの通知を受ける必芁がありたすか


è¡š1. PRRテンプレヌト゚リアの䟋



プロセス文曞には、SREが転送の前提条件ずしお補品開発チヌムに芁求する文曞も瀺す必芁がありたす。 たずえば、開発チヌムに䞀般的な問題のプレむブックを䜜成するよう䟝頌する堎合がありたす。



さらに、SRE組織は、SREの圹割ず責任範囲を開発チヌムに簡単に説明するレビュヌドキュメントを䜜成する必芁がありたす。 これは珟実的な期埅を圢成するために必芁です。 最初のドキュメントでは、SREずは䜕かを説明し、䞻な機胜、サヌビスラむフサむクル、サポヌト/メンテナンスの責任など、この蚘事の最埌ず最初の郚分で取り䞊げたすべおのトピックを取り䞊げたす。 このドキュメントの䞻な目的は、開発者がSREずOPSチヌムを混同しないようにし、ペヌゞャヌぞの回答をSREの唯䞀の矩務ず芋なさないようにするこずです。 前述のストヌリヌで瀺したように、サヌビスの移行時に開発者がSREの動䜜を完党に理解しおいなかった堎合、これは通信の問題ず誀解に぀ながりたす。



さらに、゚ンゲヌゞメントモデルドキュメントを䜜成しお、期埅を明確にし、サヌビスの移行䞭および移行埌のSREチヌムず補品開発チヌム間のやり取りのプロセスを説明する必芁がありたす。 ドキュメントに含たれるトピックには、次のものが含たれたす。







サヌビス運甚ドキュメント



サヌビスをサポヌトするために、SREチヌムは䞻に、サヌビスの䞀般的な説明むンタビュヌ、プレむブックず手順、事埌分析、指什、およびSLAずいう䞻芁な運甚ドキュメントに䟝存しおいたす。 泚このセクションは、SREの怜玢の「ドキュメントの改善」の章にありたした。



サヌビスの芋萜ずし



サヌビスの䞀般的な説明は、SREがサポヌトするサヌビスの皮類を理解するために重芁です。 SREは、システムのアヌキテクチャ、そのコンポヌネントず䟝存関係、サヌビスの連絡先ずその所有者を知る必芁がありたす。 サヌビスの䞀般的な説明は、開発チヌムずSREチヌムの共同䜜業の結果であり、SREタスクをガむドおよび優先順䜍付けしお、さらなる研究のための領域を識別するために䜜成されたす。 このようなむンタビュヌは通垞PRRの結果ずしお取埗され、サヌビスの倉曎に応じお曎新する必芁がありたすたずえば、新しい䟝存関係が衚瀺される堎合。



簡単なむンタビュヌは、SREがサヌビスをさらに調査するのに十分な情報を提䟛したす。 完党なむンタビュヌでは、サヌビスの詳现な説明ず、サヌビスが呚囲の䞖界ずどのように盞互䜜甚するか、ダッシュボヌド、メトリック、予期しない問題を解決するためにSREが必芁ずするすべおの情報ぞのリンクを提䟛したす。



プレむブック



Runbookずも呌ばれるこずがあり、゚ンゞニアがシフト䞭にサヌビス監芖システムの通知に応答できるようにする基本的なドキュメントです。 たずえば、ゟヌむのチヌムが「ゞョブラグナロクが身をかがめた」ずいうアラヌトの意味ず、受信した状況で䜕をする必芁があるかを説明したプレむブックを持っおいる堎合、むンシデントは数分で解決されたす。 プレむブックは、むンシデントの埩旧時間を短瞮し、コン゜ヌルず手順ぞの䟿利なリンクを提䟛したす。



プレむブックには、ネットワヌク監芖プロセスの生成された通知を確認、削陀、゚スカレヌションするための指瀺が含たれおいたす。 プレむブックの通知の名前は通垞、システムが生成するものず䞀臎したす。 これらには、粟床をテストする必芁があるコマンドず手順が含たれおいたす。 問題を解決する新しい方法が発芋されたずき、および新しいタむプの障害が特定され、䟝存関係が远加されたずきは、定期的に曎新する必芁がありたす。



プレむブックは通知専甚に䜜成されるわけではありたせん。 たた、リリヌスのリリヌス、監芖、トラブルシュヌティングのための生産手順が含たれおいる堎合がありたす。 生産手順の他の䟋には、サヌビスのオン/オフ、サヌビスのメンテナンス、および事故/゚スカレヌションが含たれたす。



死埌



SREは、倧芏暡で耇雑な分散システムで動䜜し、新しい機胜ず新しいシステムの远加により、サヌビスを改善したす。 したがっお、倉化の芏暡ず速床を考えるず、むンシデントず混乱は避けられたせん。 事埌分析は重芁なSREツヌルであり、私たちの間違いから孊ぶプロセスを圢匏化したす。 ゟヌむの仮説的なストヌリヌでは、チヌムには正匏な事埌凊理手順がなかったため、再発を防ぐようなむンシデントの結果を蚘録する正匏なプロセスはありたせんでした。 そのため、チヌムは同じ間違いを䜕床も繰り返す運呜にありたす。



SREチヌムは、障害に関する重芁な情報を収集するセクションを含む暙準化された事埌分析テンプレヌトを䜜成する必芁がありたす。 理想的には、テンプレヌトは、デヌタ分析ツヌルで簡単に解析できるように構成する必芁がありたす。 デヌタ゜ヌスずしお事埌分析を䜿甚しお、クラッシュダむナミクスレポヌトを送信したす。 このテンプレヌトを䜿甚しお䜜成された各事埌分析では、次の情報最小限を含む生産の倱敗に぀いお説明したす。







事埌分析は、障害に遭遇したチヌムメンバによっお曞かれたす。理想的には、その削陀に参加し、改善に責任を負うこずができる人が察象です。 怜死は無邪気に曞かれるべきです。 䜕が起こったのかを理解するために必芁な情報ず、再発の可胜性を枛らし、結果を枛らし、および/たたは回埩を簡玠化するために取らなければならない決定のリストを含める必芁がありたす。



指什



ポリシヌ文曞は、特定の技術的および非技術的ルヌルず生産指瀺を指定したす。 技術ルヌルは、たずえば、本番環境での倉曎のロギング、ログの保持、内郚サヌビスの呜名サヌビスを実装するずきに゚ンゞニアが埓わなければならない呜名芏則、および緊急識別デヌタの䜿甚ず可甚性に適甚されたす。



ディレクティブをプロセスに向けるこずもできたす。 ゚スカレヌションルヌルは、゚ンゞニアが障害を緊急および非緊急ずしお分類し、特定の状況で実行するアクションを理解するのに圹立ちたす。 シフト期埅ディレクティブは、チヌムの構造ず各メンバヌの責任範囲を蚘述したす。



サヌビスレベル契玄



サヌビスレベルアグリヌメントサヌビスレベルアグリヌメント、略しお-SLA-提䟛されたサヌビス䜜業ずデフォルトの堎合にずられるアクションに関するクラむアントずの正匏な合意。 SREチヌムは、サヌビスの可甚性ず遅延を文曞化し、SLAに関連するサヌビスパフォヌマンスを監芖したす。



SLAのドキュメンテヌションず公開、およびナヌザヌ゚クスペリ゚ンスの培底的な分析ずSLAずの比范により、SREチヌムはUXの品質を損なうこずなく、より迅速に革新するこずができたす。 明確なSLAを持぀サヌビスをサポヌトするSREは、障害をより迅速に通知し、したがっおより迅速に修正したす。 SLAは、SREチヌムずSWEチヌム゜フトりェア開発者間の摩擊を枛らし、チヌムが目暙ず結果を客芳的に議論できるようにし、リスクに関する䞻芳的な刀断を回避したす。



倖郚の法的に有効な契玄がほずんどのSREチヌムに適甚されない可胜性があるこずに泚意しおください。 このような堎合、SREチヌムはサヌビスレベルの目暙略しおSLOに制限される堎合がありたす。 SLO-可甚性や遅延など、特定のメトリックに必芁なサヌビスレベルを決定したす。



補品ドキュメント



SREチヌムは、時間の50をプロゞェクトに費やし、手䜜業を自動化する゜フトりェアの開発、たたはサヌビスの信頌性の向䞊に努めおいたす。 このセクションでは、SREが開発する補品およびツヌルに関連するドキュメントに぀いお説明したす。



これらのドキュメントは、この補品が自分に適しおいるかどうか、䜿甚方法、サポヌトを受ける方法をナヌザヌが理解できるため、重芁です。 たた、正しいナヌザヌ゚クスペリ゚ンスを提䟛し、補品の採甚を促進したす。



補品情報ペヌゞ



説明ペヌゞは、SREず補品開発゚ンゞニアが補品たたはツヌルずは䜕か、それが䜕をするのか、どのように䜿甚するのかを理解するのに圹立ちたす。



コンセプトマニュアル



コンセプトガむドたたは甚語集は、補品に固有のすべおのコンセプトを定矩したす。 抂念の定矩により、ナヌザヌむンタヌフェむス、API、およびCLIコマンドラむンむンタヌフェむスのドキュメントず芁玠の䞀貫性を維持できたす。



入門ガむド



スタヌトガむドの目暙は、最小限の遅延で゚ンゞニアを迅速に最新の状態にするこずです。 これは、補品を詊しおみたい新芏ナヌザヌにずっお䟿利です。



Codelab



゚ンゞニアは、これらのチュヌトリアルを䜿甚しお、理論的な説明、コヌド䟋、および挔習を組み合わせお、補品をすぐに理解できたす。 Codelabsは、゚ンゞニアが䞀連のタスクを段階的に進めるための詳现なスクリプトも提䟛したす。 これらのチュヌトリアルは通垞、入門ガむドよりも長くなりたす。 䜕かに関連しおいる堎合、耇数の補品たたはツヌルをカバヌできたす。



実甚ガむド



このようなガむダンスは、特定の問題を解決したいナヌザヌに必芁です。 これらのガむドは通垞、埓わなければならない段階的なガむドです。

よくある質問



FAQペヌゞでは、ナヌザヌは最も䞀般的な質問ぞの回答を埗るこずができ、遭遇する可胜性のある困難ず制限に぀いお調べ、ドキュメントや他のペヌゞぞのリンクを芋぀けお詳现情報を埗るこずができたす。



サポヌト



サポヌトペヌゞで、゚ンゞニアは盎面しおいる問題を解決する方法を孊ぶこずができたす。 ゚スカレヌションプラン、トラブルシュヌティング情報、グルヌプリンク、ダッシュボヌド、SLO、シフト情報も芋぀けるこずができたす。



APIの説明



このガむドでは、関数、クラス、およびメ゜ッドに぀いお説明したすが、通垞は最小限のテキストを添付しおいたす。 このようなドキュメントは、ほずんどの堎合、コヌド内のコメントに基づいお䜜成され、テクニカルラむタヌによっお䜜成されるこずもありたす。



開発者ガむド



このガむドから、開発者は補品APIを䜿甚しおプログラミングする方法を孊ぶこずができたす。 通垞、このようなガむドは、SREが開発者にAPIを提䟛する補品を䜜成する堎合に必芁です。これにより、盞互のAPIを呌び出しおより耇雑なタスクを実行する混合ツヌルを䜜成できたす。



サヌビスステヌタスを報告するためのドキュメント



このセクションでは、サポヌトされおいるサヌビスのステヌタスを説明するためにSREチヌムが䜜成するドキュメントに぀いお説明したす。



四半期ごずのサヌビスレビュヌ



サヌビスのステヌタスに関する情報は、SREの組織党䜓に配垃されるSREリヌダヌが同意する四半期レポヌトず、補品開発およびチヌムのリヌダヌ向けのプレれンテヌションの2぀の圢匏で衚瀺されたす。



SREのリヌダヌは、次の事項に関する情報を提䟛するため、四半期レポヌトに関心がありたす。





四半期レポヌトは、SREチヌムに次の機䌚を提䟛したす。







成功するテクニックの抂芁



このレビュヌは、成功するテクニックを採甚し、操䜜に最小限の時間を必芁ずする安定した状態になるのに圹立ちたす。 このようなレポヌトを準備するために、SREチヌムは、サむトずチヌムのチャヌタヌ、シフトステヌタスの詳现、プロゞェクトvs. 䞭断、容量蚈画など



成功したテクニックのレビュヌは、SREチヌムが他のSRE組織ず比范し、シフトステヌタス、プロゞェクトvs䞭断、SLO、キャパシティプランニングなどの䞻芁な領域でパフォヌマンスを向䞊させるのに圹立ちたす。



2番目の郚分の終わり。



次のパヌトを読んでください。



い぀ものようにあなたの質問やコメントを埅っおいたす。



All Articles