Kubernetes Intensive:サポートジョブ

2月1〜3日はSlurm-3で、Kubernetesに集中します。 お知らせとプログラムはこちら。







今日は、インナーキッチンについて少しお話しします。生徒が練習にどのように対応できるか、そしてその結果について。 同時に、将来の参加者は、サポートに期待することを理解します。













私自身は年に2〜3回有料コースを受講しています。常にオプションを練習して受講していますが、最後まで終了することはほとんどありません。 私にとっては、まるでレストランで1キログラムのステーキを注文したかのように見えます。できる限り食べて、残りを皿の上に置いた。 しかし、Slurmに行く人は、全部を詰めたいと思います。







最初のSlormeで、私たちは練習に冷静に反応しました、彼らは言う、私たちは課題を与え、参加者は可能な限り最善を尽くします。 聴衆にイニシアチブと才能のある人がいなければ、これは災害につながります。「15分前に問題についてチャットで書きました。すでに自分で解決し、さらに5人を助けました。」







したがって、2番目のSlörmでは、3人のスピーカーに加えて、12人のサポートスタッフが学生と協力しました。サウスブリッジチームのシステム管理者です。







練習の問題はどこにありますか?



Do It Yourself自身がアプローチします。 「構成をコピーし、プレイブックを開始すると、クラスターの準備ができました」というウォークスルーを実行できます。 非常に高速で、非常にシンプルで、非常に無意味です。 タスクを完了するには、トピックを理解し、構成、設定などを手動で修正する必要がありました。







雪玉 すべてのトピックとタスクは互いに関連しています。 1日目にクラスターをデプロイしなかった場合、2日目にアプリケーションをロールすることはできません。 最も重要で挑戦的なトピックはCephでした。







スズとファカプ



Cephは重要かつ複雑なトピックであり、それなしでは先へ進むことができないため、破壊的なCephの大規模なプラグインは、fakapに匹敵しました。 次に、サポートを骨で敷きました。







スライドのエラー。 私たちはすべて人間であり、スピーカーでもあります。 スライドにエラーがあり、87人の生徒全員がチャットで書くようになりました。







ブロードキャストグリッチ。 プロバイダーから専用チャンネルを購入し、メガホンからのバックアップチャンネルを保持しましたが、卑劣な法則によれば、これは節約できませんでした。 Slurmの初日、主要なバックボーンプロバイダーが転落し、チャンネルはFacecastブロードキャストサービスに渡されました。 YouTubeで放送を開始しましたが、この間、フルタイムの学生がいるスピーカーが駆け出し、遅れをとったオンライン学生がクラスまでの切断を含むスキャンダルを行いました。 翌日、Facecastはプロバイダーの接続スキームを変更しましたが、すべてのユーザーがすぐに優れたシステムを獲得したわけではありません。 そして、inりの波全体が私たちのサポートに落ちました。







(プロバイダが落ちたことによる問題は解決しました。クラスを停止し、完全なパフォーマンスを待って、見逃したすべてのマテリアルを繰り返しました。2日目の遅れに耐えなければなりませんでした)。







だから、学生は助けを求めます



サポートは次の動作を選択する必要があります。

-生徒に個別にトラブルシューティングに参加させる。

-生徒の間違いを見つけて説明します。

-学生のための練習の段階を作ります。







検出不能なエラーがあります:間違ったログイン、lの代わりに文字I(小さいLの代わりに大きいi)、その精神で。







fakapがある場合、サポートまでの行が構築されます。 一度に5つのトラブルを慎重に支援することは不可能です。







しかし、時間的なプレッシャーは深刻でした。テクニカルサポートの社内チャットでは、日中に数千のメッセージが流れました。 サポートサービスは深夜0時以降にオフになり、午前6時から働き始めました(残念ながら、サポートと学生は異なるタイムゾーンに散らばっていました)。







そのため、解析する代わりに、参加者は「すべてを修正しました。クラスターは正常に動作するようになりました。」と答えました。 はい、「Do It Youself」は密猟されていますが、雪玉を避けることができました。







少し簡単な喜び



サポートチームはチャットと特別なフォームから質問を収集し、並べ替え、回答し、難しい質問をスピーカーに送信しました。 したがって、質問は残っていません。













オンライン参加者が放送とコンソールを切り替えるのは不便であり、コマンドを含むテキストファイルはなく、スピーカーのラップトップでプレゼンテーションを行うだけであることがわかりました。 したがって、ホールに座っているサポートの1人がダイヤルし、スライドから電報にコマンドを送信しました。







一般に、10人の勤勉な労働者が明るいスピーカーの後ろに立ち、そのおかげで参加者の大多数が練習の終わりに達しました。 幸いなことに、サウスブリッジはインフラストラクチャのサポートに取り組んでおり、誰もが私たちを助けることができます。







Slurm-3はSlurm-2よりも優れています



Slerm-2で自発的に行われたことを体系化し、最適化します。

-各サポートにサポートグループを割り当て、学生が直接サポートを把握できるようにします。

-典型的なエラーと解決策のデータベースを作成します。

-ショートカットを準備する「練習をマスターしていないが、先に進みたい場合」

-職場の組織とサポートとの相互作用についての指示とともに、参加者のメモを準備しています。







Slurm-3:Kubernetesクラスターの起動








All Articles