| name | .claude/skills/prompt-testing-evaluation/SKILL.md |
| description | プロンプトのテスト、評価、反復改善を専門とするスキル。 A/Bテスト、評価メトリクス、自動化されたプロンプト品質保証により、 本番環境で信頼性の高いプロンプトを実現します。 📚 リソース参照: このスキルには以下のリソースが含まれています。 必要に応じて該当するリソースを参照してください: - `.claude/skills/prompt-testing-evaluation/resources/ab-testing-guide.md`: プロンプトA/Bテスト設計(サンプルサイズ、メトリクス、成功基準) - `.claude/skills/prompt-testing-evaluation/resources/automated-evaluation.md`: LLM-as-a-Judge、自動スコアリング、回帰テスト自動化手法 - `.claude/skills/prompt-testing-evaluation/resources/evaluation-metrics.md`: 精度、一貫性、完全性、レイテンシ、コスト等の定量評価指標 - `.claude/skills/prompt-testing-evaluation/scripts/prompt-evaluator.mjs`: Prompt Evaluator Script - `.claude/skills/prompt-testing-evaluation/templates/evaluation-rubric.md`: 評価ルーブリックテンプレート - `.claude/skills/prompt-testing-evaluation/templates/test-case-template.md`: テストケーステンプレート 専門分野: - A/Bテスト: 複数プロンプトの比較評価 - 評価メトリクス: 精度、一貫性、レイテンシ、コスト - 回帰テスト: プロンプト変更の影響検証 - 自動評価: LLM-as-a-Judge、自動スコアリング 使用タイミング: - プロンプトの品質を定量的に評価したい時 - 複数のプロンプト候補を比較したい時 - プロンプトの継続的改善サイクルを確立したい時 - 本番デプロイ前の品質保証を行いたい時 Use proactively when evaluating prompt quality, comparing prompt variations, or establishing prompt testing pipelines. |
| version | 1.0.0 |
Prompt Testing & Evaluation
概要
プロンプトのテストと評価は、AIシステムの品質保証における 重要な工程です。体系的なテストにより、信頼性の高いプロンプトを 開発・維持することができます。
主要な価値:
- プロンプト品質の定量化
- 回帰の早期検出
- 継続的な改善サイクル
- 本番環境でのリスク低減
リソース構造
prompt-testing-evaluation/
├── SKILL.md
├── resources/
│ ├── evaluation-metrics.md # 評価メトリクス
│ ├── ab-testing-guide.md # A/Bテストガイド
│ └── automated-evaluation.md # 自動評価手法
├── templates/
│ ├── evaluation-rubric.md # 評価ルーブリック
│ └── test-case-template.md # テストケーステンプレート
└── scripts/
└── prompt-evaluator.mjs # 評価スクリプト
コマンドリファレンス
リソース読み取り
# 評価メトリクス
cat .claude/skills/prompt-testing-evaluation/resources/evaluation-metrics.md
# A/Bテストガイド
cat .claude/skills/prompt-testing-evaluation/resources/ab-testing-guide.md
# 自動評価手法
cat .claude/skills/prompt-testing-evaluation/resources/automated-evaluation.md
テンプレート参照
# 評価ルーブリック
cat .claude/skills/prompt-testing-evaluation/templates/evaluation-rubric.md
# テストケーステンプレート
cat .claude/skills/prompt-testing-evaluation/templates/test-case-template.md
テスト戦略
テストピラミッド
▲
/\
/ \
/ E2E\ 少数の統合テスト
/──────\
/ \
/ 機能テスト \ 中程度の機能テスト
/────────────\
/ \
/ ユニットテスト \ 多数のユニットテスト
/──────────────────\
テストレベル
| レベル | 目的 | 頻度 |
|---|---|---|
| ユニット | 個別プロンプトの基本動作 | 毎回 |
| 機能 | タスク完了能力 | 変更時 |
| 統合 | システム全体の整合性 | リリース前 |
| 回帰 | 既存機能の維持 | 変更後 |
評価メトリクス
品質メトリクス
| メトリクス | 説明 | 測定方法 |
|---|---|---|
| 精度 | 正しい出力の割合 | 正解との比較 |
| 一貫性 | 同入力での出力の安定性 | 複数回実行の分散 |
| 完全性 | 必要情報の網羅度 | チェックリスト |
| 適切性 | 文脈への適合度 | 人間評価 |
運用メトリクス
| メトリクス | 説明 | 目標値 |
|---|---|---|
| レイテンシ | 応答時間 | タスク依存 |
| トークン数 | 消費トークン | 予算内 |
| エラー率 | 失敗の割合 | <5% |
| コスト | 1リクエストあたりコスト | 予算内 |
ワークフロー
Phase 1: テスト計画
目的: テスト戦略とケースを定義
成果物:
- テスト目標の明確化
- テストケースの設計
- 評価基準の設定
チェックリスト:
- テスト対象のプロンプトを特定
- 評価メトリクスを選択
- テストデータを準備
- 合格基準を定義
Phase 2: テスト実行
目的: テストを実行しデータを収集
実行手順:
- テストケースの実行
- 出力の記録
- メトリクスの計算
- エラーの記録
Phase 3: 分析と改善
目的: 結果を分析し改善点を特定
分析項目:
- 失敗パターンの特定
- メトリクスの傾向
- ボトルネックの発見
- 改善機会の優先順位付け
Phase 4: 反復
目的: 改善を実施し再テスト
サイクル:
プロンプト修正 → テスト → 分析 → 修正 → ...
テスト手法
A/Bテスト
目的: 2つのプロンプトバリアントを比較
設計:
ab_test:
control: prompt_v1
treatment: prompt_v2
sample_size: 100
metrics:
- accuracy
- latency
- user_preference
success_criteria:
accuracy_improvement: ">5%"
latency_regression: "<10%"
ゴールデンデータセット
目的: 既知の正解との比較
構造:
golden_dataset:
- input: "入力1"
expected_output: "期待される出力1"
metadata:
category: "category_a"
difficulty: "easy"
- input: "入力2"
expected_output: "期待される出力2"
metadata:
category: "category_b"
difficulty: "hard"
LLM-as-a-Judge
目的: AIによる自動評価
評価プロンプト:
以下の出力を評価してください。
入力: {{input}}
出力: {{output}}
期待: {{expected}}
評価基準:
1. 正確性 (1-5)
2. 完全性 (1-5)
3. 明確性 (1-5)
スコアと理由を記載してください。
ベストプラクティス
すべきこと
テストの自動化:
- CI/CDパイプラインに統合
- 定期的な回帰テスト
- 自動レポート生成
多角的な評価:
- 複数のメトリクスを使用
- 人間評価とAI評価の併用
- エッジケースのテスト
バージョン管理:
- プロンプトのバージョニング
- テスト結果の記録
- 変更履歴の追跡
統計的厳密性:
- 適切なサンプルサイズ
- 有意差検定
- 再現性の確保
避けるべきこと
単一メトリクスへの依存:
- ❌ 精度だけで判断
- ✅ 複合的なメトリクス
テストなしの変更:
- ❌ 本番環境で直接変更
- ✅ テスト環境で検証後にデプロイ
エッジケースの無視:
- ❌ 典型例のみテスト
- ✅ 境界ケースを含む
過度の最適化:
- ❌ テストセットへの過学習
- ✅ 汎化性能の重視
トラブルシューティング
問題1: テスト結果が不安定
症状: 同じテストで異なる結果
対策:
- Temperatureを下げる
- サンプルサイズを増やす
- 平均値を使用
- シード固定(可能な場合)
問題2: 評価基準が曖昧
症状: 評価者間で判断が異なる
対策:
- 詳細なルーブリックを作成
- 具体例を提供
- 評価者訓練を実施
- Inter-rater reliabilityを測定
問題3: テストが遅い
症状: テスト実行に時間がかかりすぎる
対策:
- 並列実行
- テストケースの優先順位付け
- サンプリング戦略
- キャッシュの活用
関連スキル
- .claude/skills/prompt-engineering-for-agents/SKILL.md (
.claude/skills/prompt-engineering-for-agents/SKILL.md) - .claude/skills/hallucination-prevention/SKILL.md (
.claude/skills/hallucination-prevention/SKILL.md) - .claude/skills/best-practices-curation/SKILL.md (
.claude/skills/best-practices-curation/SKILL.md)
変更履歴
| バージョン | 日付 | 変更内容 |
|---|---|---|
| 1.0.0 | 2025-11-25 | 初版作成 |