name	.claude/skills/monitoring-alerting/SKILL.md
description	アプリケーションとインフラの監視・アラート設計を専門とするスキル。メトリクス収集、ログ設計、アラート閾値設定、ダッシュボード構成を提供します。 📚 リソース参照: このスキルには以下のリソースが含まれています。必要に応じて該当するリソースを参照してください: - `.claude/skills/monitoring-alerting/resources/alerting-rules.md`: 閾値設定、警告/重大レベル、エスカレーション、通知先、抑制ルール設計 - `.claude/skills/monitoring-alerting/resources/discord-notifications.md`: Discord Webhook連携、メッセージフォーマット、Embed活用、アラート送信 - `.claude/skills/monitoring-alerting/resources/golden-signals.md`: レイテンシー・トラフィック・エラー・飽和度の4指標、SLI/SLO設計 - `.claude/skills/monitoring-alerting/resources/logging-design.md`: 構造化ログ（JSON）、ログレベル設計、相関ID、環境別設定 - `.claude/skills/monitoring-alerting/scripts/check-metrics.mjs`: メトリクスエンドポイント確認、死活監視、レスポンスタイム測定 - `.claude/skills/monitoring-alerting/templates/alert-rules-template.yml`: アラートルール定義テンプレート（Prometheus/Alertmanager形式） - `.claude/skills/monitoring-alerting/templates/dashboard-template.json`: ダッシュボード設定テンプレート（Grafana形式、ゴールデンシグナル可視化） - `.claude/skills/monitoring-alerting/templates/incident-report-template.md`: インシデントレポートテンプレート（発生・影響・原因・対応・再発防止） - `.claude/skills/monitoring-alerting/templates/structured-logger-template.ts`: 構造化ロガー実装テンプレート（Winston/Pino、TypeScript）専門分野: - メトリクス設計: ゴールデンシグナル、SLI/SLO - ログ設計: 構造化ログ、ログレベル設計 - アラート設計: 閾値設定、エスカレーション - ダッシュボード: 可視化、トレンド分析使用タイミング: - 監視戦略を設計する時 - アラートルールを定義する時 - ログ出力を設計する時 - 可観測性を向上させたい時 Use proactively when users need to design monitoring strategies,
version	1.0.0

Monitoring & Alerting

概要

このスキルは、『The DevOps Handbook』と『Site Reliability Engineering』の原則に基づき、効果的な監視・アラート戦略を提供します。

主要な価値:

問題の早期検出と迅速な対応
システム状態の可視化
インシデント対応時間の短縮
データ駆動の意思決定

対象ユーザー:

監視システムを設計するエンジニア
インシデント対応を改善したいチーム
可観測性を向上させたい DevOps

リソース構造

monitoring-alerting/
├── SKILL.md                                    # 本ファイル
├── resources/
│   ├── golden-signals.md                      # ゴールデンシグナル
│   ├── logging-design.md                      # ログ設計
│   ├── alerting-rules.md                      # アラートルール設計
│   └── discord-notifications.md               # Discord通知
├── scripts/
│   └── check-metrics.mjs                      # メトリクス確認スクリプト
└── templates/
    └── structured-logger-template.ts          # 構造化ログテンプレート

コマンドリファレンス

リソース読み取り

# ゴールデンシグナル
cat .claude/skills/monitoring-alerting/resources/golden-signals.md

# ログ設計
cat .claude/skills/monitoring-alerting/resources/logging-design.md

# アラートルール設計
cat .claude/skills/monitoring-alerting/resources/alerting-rules.md

# Discord通知
cat .claude/skills/monitoring-alerting/resources/discord-notifications.md

スクリプト実行

# メトリクス確認
node .claude/skills/monitoring-alerting/scripts/check-metrics.mjs https://app.example.com

テンプレート参照

# 構造化ログテンプレート
cat .claude/skills/monitoring-alerting/templates/structured-logger-template.ts

いつ使うか

シナリオ 1: 新サービスの監視設計

状況: 新しいサービスの監視戦略を設計したい

適用条件:

本番環境へのデプロイを予定
SLO/SLI を定義したい
インシデント対応を準備したい

期待される成果: 包括的な監視戦略と実装計画

シナリオ 2: アラート疲れへの対応

状況: アラートが多すぎて重要な問題を見逃している

適用条件:

誤検知が多い
アラートの優先度が不明確
エスカレーションが機能していない

期待される成果: 効果的なアラート戦略への改善

シナリオ 3: ログの可視性向上

状況: ログが散在して問題調査に時間がかかる

適用条件:

ログフォーマットが不統一
相関 ID がない
検索・分析が困難

期待される成果: 構造化された効率的なログシステム

ワークフロー

Phase 1: 要件分析

目的: 監視要件と制約を明確化

ステップ:

ビジネス要件:
- SLO/SLI 目標
- 対応時間要件
- ステークホルダーの期待
技術要件:
- システムアーキテクチャ
- 利用可能なツール
- データ保持期間

判断基準:

SLO/SLI が定義されているか？
監視対象が特定されているか？
ツール選択の制約があるか？

リソース: resources/golden-signals.md

Phase 2: メトリクス設計

目的: 収集すべきメトリクスを定義

ステップ:

ゴールデンシグナル:
- レイテンシー
- トラフィック
- エラー率
- 飽和度
カスタムメトリクス:
- ビジネスメトリクス
- アプリケーション固有の指標

判断基準:

ゴールデンシグナルがカバーされているか？
メトリクスの粒度は適切か？

リソース: resources/golden-signals.md

Phase 3: アラート設計

目的: 効果的なアラートルールを定義

ステップ:

閾値設定:
- 警告レベル
- 重大レベル
- 自動復旧
通知設計:
- 通知先
- エスカレーション
- 抑制ルール

判断基準:

閾値が適切か？
エスカレーションが定義されているか？

リソース: resources/alerting-rules.md

Phase 4: ログ設計

目的: 効果的なログ戦略を実装

ステップ:

フォーマット:
- 構造化ログ（JSON）
- 必須フィールド
- 相関 ID
レベル設計:
- ERROR/WARN/INFO/DEBUG
- 環境別設定

判断基準:

ログフォーマットが統一されているか？
相関 ID が実装されているか？

リソース: resources/logging-design.md

核心知識

ゴールデンシグナル

SRE の基本的な 4 つの監視指標：

シグナル	説明	例
レイテンシー	リクエスト処理時間	p50, p95, p99
トラフィック	システム負荷	RPS, 同時接続数
エラー	失敗率	5xx 率, 例外数
飽和度	リソース使用率	CPU, Memory, Disk

SLI/SLO/SLA

SLI (Service Level Indicator): 測定指標
 例: API応答時間の99パーセンタイル

SLO (Service Level Objective): 目標値
 例: 99.9%のリクエストが200ms以内

SLA (Service Level Agreement): 契約
 例: 月間稼働率99.5%を保証

ログレベル設計

レベル	用途	本番	開発
ERROR	即座の対応が必要	✅	✅
WARN	注意が必要な状況	✅	✅
INFO	重要な業務イベント	✅	✅
DEBUG	デバッグ情報	❌	✅

詳細は resources/logging-design.md を参照

ベストプラクティス

すべきこと

ゴールデンシグナルの監視:
- 4 つのシグナルを必ず監視
- ダッシュボードで可視化
構造化ログの実装:
- JSON フォーマット
- 相関 ID の付与
- 適切なログレベル
アラートの階層化:
- 重大度に応じた通知
- エスカレーションパス
- 抑制ルール

避けるべきこと

アラート疲れ:
- ❌ 無意味なアラートの乱発
- ✅ アクション可能なアラートのみ
情報の過剰収集:
- ❌ すべてを記録
- ✅ 必要な情報のみ
メトリクスの孤立:
- ❌ 相関のないメトリクス
- ✅ コンテキストのあるダッシュボード

トラブルシューティング

問題 1: アラートが多すぎる

症状: 毎日大量のアラートが発生

対応:

閾値の見直し
抑制ルールの追加
自動復旧の実装
根本原因の対処

問題 2: 問題検出が遅い

症状: ユーザー報告で問題が発覚

対応:

監視カバレッジの確認
閾値の調整
合成監視の追加
ログアラートの追加

問題 3: ログが役に立たない

症状: ログがあるが調査に使えない

対応:

構造化ログへの移行
相関 ID の追加
コンテキスト情報の充実
ログレベルの見直し

メトリクス

MTTD（平均検出時間）

目標: < 5 分

MTTR（平均復旧時間）

目標: < 15 分

アラート精度

目標: 誤検知率 < 5%

変更履歴

バージョン	日付	変更内容
1.0.0	2025-11-26	初版作成

参考文献

『Site Reliability Engineering』 Google 著
- Chapter 6: Monitoring Distributed Systems
『The DevOps Handbook』 Gene Kim 他著
- Part IV: The Second Way - Feedback

.claude/skills/monitoring-alerting/SKILL.md

Install Skill

SKILL.md

Monitoring & Alerting

概要

リソース構造

コマンドリファレンス

リソース読み取り

スクリプト実行

テンプレート参照

いつ使うか

シナリオ 1: 新サービスの監視設計

シナリオ 2: アラート疲れへの対応

シナリオ 3: ログの可視性向上

ワークフロー

Phase 1: 要件分析

Phase 2: メトリクス設計

Phase 3: アラート設計

Phase 4: ログ設計

核心知識

ゴールデンシグナル

SLI/SLO/SLA

ログレベル設計

ベストプラクティス

すべきこと

避けるべきこと

トラブルシューティング

問題 1: アラートが多すぎる

問題 2: 問題検出が遅い

問題 3: ログが役に立たない

関連スキル

メトリクス

MTTD（平均検出時間）

MTTR（平均復旧時間）

アラート精度

変更履歴

参考文献