夜も眠れないリリースを防ぐSREの知恵|トイル削減とPRR

『SREの知識地図』の著者を招いてお送りするSREの旅 Road5

Topotalの宮里 です。

先日、4月23日(木) に第 5 回目となる #SREの旅 Road 5 「トイルをなくしリリースを守る」のオンラインイベントを開催しました!

今回は、『SREの知識地図』 第 6 章・第 7 章の著者である 齊藤さんをゲストに迎え、書籍第6章「手作業を自動化し効率化する」 / 第7章「サービスのリリースを事前にレビューする」についてです。

ゲストショートトークで齊藤さんが投影した資料も合わせてご覧ください📁 speakerdeck.com

また、当日のゲストショートトークやパネルディスカッションの様子は以下のアーカイブをご確認ください🎥

www.youtube.com


1. トイル(Toil)とは何か?――その正体と計測の重要性

まず、永遠の課題とも言える トイル(Toil)についてです。

齊藤さんは、単に 面倒な仕事 すべてをトイルと呼ぶのではなく、以下の6つの特徴で見極めるべきだと強調します。

  • トイルの特徴:
    • 手作業
    • 反復的
    • 自動化可能
    • 戦術的(場当たり的)
    • 永続的価値がない
    • サービスの成長に比例して増える

まずは測ることから改善が始まる

「トイルを減らしたい」と思っても、感覚だけで動くのは危険であり、計測 こそが出発点だと言います。

  • 例えば、Jira などのチケット管理ツールでトイルラベルを貼る。
  • 例えば、Slack の問い合わせ対応を分類し、数を確認する。
  • 例えば、ストーリーポイントのうち、何割がトイルに消えているかを可視化する。

何にどれだけ時間を奪われているか?を数字で示すことができれば、組織としてこの自動化に時間を投資しようという意思決定ができるようになります。


2. PRR は関所ではなく、リリースを支えるセーフティネット

続いて第7章のテーマ、PRR(プロダクションレディネスレビュー)

これは、新しいサービスを本番に出す前に、運用面での準備ができているかをチェックするプロセスです。

ここで印象的だったのは、PRR はリリースを止めるための壁 にしないという考え方です。

  • Early Engagement(早期関与): リリース直前にダメ出しをするのは、開発者にとっても SRE にとっても不幸です。設計段階から SRE が関わり、「モニタリングはどうしますか?」と伴走するのが理想的な姿。
  • チェックリストの改善: 毎回パスする項目は自動化するか削除し、毎回ひっかかる項目があれば、それは 仕組み(プラットフォーム)で解決すべきサイン。

PRR の本質は、開発者の足を引っ張ることではなく、「本番に出した後に夜も眠れないような事態を防ぐ」ためのセーフティネットと言えるのではないでしょうか。


3. AI 時代の SRE ――「AI スロップ」という新たな敵への対抗策

後半のディスカッションでは、AI(LLM)が SRE の仕事をどう変えるかという熱い議論が交わされました。

AIがトイルを加速させる?

AI によってコード生成が簡単になった結果、AI スロップ(AIが生んだ質の低い成果物) が大量にプルリクエストとして飛んでくるという、新たなトイルが発生しているという興味深い指摘がありました。

変わらない 原理原則 の大切さ

齊藤さんは「AI 時代だからこそ、これまで積み上げてきたプラクティスをちゃんとやる以外に道はない」と語ります。

  • 可観測性(オブザーバビリティ)の整備
  • ユニットテストのカバレッジ担保
  • しっかりとしたレビュー文化

これら 基礎 が整っていない状態でAIを使っても、不要物を量産するだけになってしまいます。逆に、基礎があるチームが AI を使いこなせば、初動調査の自動化など、トイル削減を劇的に加速させることができます。


4. おわりに:SRE の知識は仕組みと寄り添い

今回のイベントを通じて、SRE のプラクティスは決して冷たいルールではなく、現場のエンジニアが安心して挑戦を続けるための 優しさの仕組み化 なのだと感じました。

『SREの知識地図』は、こうした現場の知恵が詰まった一冊です。エンジニアの方はもちろん、チームの生産性に悩むマネージャーの方も、ぜひ手に取ってみてはいかがでしょうか。


📩 次回のイベント通知を受け取りたい方は connpass でフォローをお願いします〜