Claude Code Plugins

Community-maintained marketplace

Feedback
0
0

|

Install Skill

1Download skill
2Enable skills in Claude

Open claude.ai/settings/capabilities and find the "Skills" section

3Upload to Claude

Click "Upload skill" and select the downloaded ZIP file

Note: Please verify skill by going through its instructions before using it.

SKILL.md

name llm-eval-designer
description LLM生成システムの検証設計スキル。assay-kitフレームワークを活用し、LLM特有の失敗モード(幻覚、例への過学習、部分的処理)を考慮した総合的なテストケース設計を支援する。 使用タイミング: - LLMベースのワークフロー/エージェントの評価設計時 - ゴールデンデータセット(golden-dataset.yaml)の設計・拡張時 - 既存テストが特定パターンに過学習していないか検証時 - LLM出力の品質スコアラー設計時 - 「なぜこのテストケースが必要か」の根拠を示す時

LLM Evaluation Designer

LLM生成システムの検証を設計するためのガイド。

Quick Start

# 1. 検証対象の機能を特定
target_function: "テキスト置換"

# 2. 不変条件を定義
invariant: "入力テキストAをBに変換、他は不変"

# 3. 失敗モードを列挙(→ references/failure-modes.md)
failure_modes:
  - example_overfitting   # プロンプト例への過学習
  - hallucination         # 幻覚(存在しない内容の生成)
  - partial_processing    # 部分的処理

# 4. 汎化テスト設計(→ references/generalization-patterns.md)
# 5. テストケース生成(→ references/test-case-templates.md)

Core Workflow

Step 1: 失敗モード分析

LLM特有の失敗パターンを特定。詳細は failure-modes.md

失敗モード 検出方法 対策テスト
例への過学習 例と異なる入力でテスト 同カテゴリ別例、異カテゴリ例
幻覚 入出力差分の厳密検証 入力に存在しない内容チェック
部分的処理 全マッチの網羅性検証 複数出現、複数ブロック
指示誤解釈 境界条件テスト 類似だが異なる指示

Step 2: 汎化保証設計

プロンプト例への過学習を防ぐテスト設計。詳細は generalization-patterns.md

プロンプトに例Xがある場合:
  ├─ Xと同カテゴリの別例Y, Zでテスト
  ├─ Xと異なるカテゴリの例A, Bでテスト
  └─ テスト入力 ∩ プロンプト例 = ∅ を保証

Step 3: テストマトリクス構築

変数の直交組み合わせでテストケースを生成:

操作種別 × 入力形態 × 出現パターン × ブロック種別
   ↓
ペアワイズ法で組み合わせ削減
   ↓
優先度付きテストケース生成

Step 4: スコアラー設計

多面的な品質評価。詳細は scorer-design.md

スコアラー 測定対象 閾値例
operation-accuracy 操作種別・数の正確性 80%
target-block-precision ターゲット特定の正確性 75%
content-quality 生成内容のパターンマッチ 60%
anti-hallucination 幻覚の不在 100%

References

Anti-Patterns

# ✗ Bad: プロンプト例と同じ入力でテスト
prompt_example: "カート → Cart"
test_input: "カート → Cart"  # 過学習を検出できない

# ✓ Good: プロンプト例と異なる入力でテスト
prompt_example: "カート → Cart"
test_inputs:
  - "ユーザー → 利用者"  # 同カテゴリ(カタカナ)別例
  - "効率化 → 最適化"    # 異カテゴリ(漢字)
  - "API → インターフェース"  # 異カテゴリ(英語)
# ✗ Bad: 単一パターンのみ許容
expectedContentPatterns:
  - "要約"

# ✓ Good: LLMの非決定性を考慮した複数パターン
expectedContentPatterns:
  - "要約|まとめ|サマリー"