Claude Code Plugins

Community-maintained marketplace

Feedback
0
0

動画・音声の文字起こし。ローカルWhisper(無料)とOpenAI API(高速)の2モード対応。

Install Skill

1Download skill
2Enable skills in Claude

Open claude.ai/settings/capabilities and find the "Skills" section

3Upload to Claude

Click "Upload skill" and select the downloaded ZIP file

Note: Please verify skill by going through its instructions before using it.

SKILL.md

name video-transcribe
description 動画・音声の文字起こし。ローカルWhisper(無料)とOpenAI API(高速)の2モード対応。

Video Transcribe Skill

Whisperを使用した動画・音声の文字起こしスキル。

When to Use

  • 動画コンテンツの文字起こし
  • 字幕ファイル(SRT)生成
  • 議事録・インタビュー書き起こし
  • ポッドキャスト・講義のテキスト化

Modes

1. ローカルモード(無料)

OpenAI Whisperをローカル実行。GPU推奨。

モデル 精度 10分の処理時間 VRAM
tiny 約1分 1 GB
base 約2分 1 GB
small 中高 約3分 2 GB
medium 約5分 5 GB
large-v3 最高 約10分 10 GB

2. APIモード(有料・高速)

OpenAI Whisper APIを使用。高速・高精度。

料金 処理時間 精度
$0.006/分(約0.9円/分) リアルタイム以下 最高

Usage

ローカルモード

# 基本(mediumモデル)
make transcribe FILE=local-files/videos/MainVideo.mp4

# モデル指定
make transcribe FILE=local-files/videos/MainVideo.mp4 MODEL=large-v3

# 音声ファイル
make transcribe FILE=local-files/videos/audio.mp3

APIモード

# OpenAI API使用(要: OPENAI_API_KEY)
make transcribe-api FILE=local-files/videos/MainVideo.mp4

# URLから直接(ダウンロード+文字起こし)
make transcribe-url URL="https://www.youtube.com/watch?v=xxxxx"
make transcribe-url-api URL="https://www.youtube.com/watch?v=xxxxx"

出力フォーマット指定

# SRT(字幕)
make transcribe FILE=... FORMAT=srt

# テキスト
make transcribe FILE=... FORMAT=txt

# JSON(タイムスタンプ付き)
make transcribe FILE=... FORMAT=json

# VTT(Web字幕)
make transcribe FILE=... FORMAT=vtt

Output

local-files/transcripts/
├── [ファイル名].srt    # 字幕ファイル
├── [ファイル名].txt    # プレーンテキスト
├── [ファイル名].json   # タイムスタンプ付きJSON
└── [ファイル名].vtt    # WebVTT字幕

Configuration

環境変数 (.env)

# OpenAI API(APIモード用)
OPENAI_API_KEY=sk-xxxxx

# デフォルト設定
WHISPER_MODEL=small           # tiny/base/small/medium/large-v3(CPUはsmall推奨)
WHISPER_LANGUAGE=ja           # 言語コード
WHISPER_OUTPUT_FORMAT=srt     # srt/txt/json/vtt
WHISPER_OUTPUT_DIR=local-files/transcripts

# ローカルモード設定
WHISPER_DEVICE=cuda           # cuda/cpu
WHISPER_COMPUTE_TYPE=float16  # float16/int8

Comparison

項目 ローカル API
料金 無料 約0.9円/分
速度 遅い(5-10分/10分動画) 速い(数秒/10分動画)
精度 高(large-v3) 最高
GPU 推奨(VRAM 5GB+) 不要
オフライン 可能 不可
プライバシー ローカル処理 クラウド送信

Supported Formats

入力

  • 動画: MP4, WebM, MKV, AVI, MOV
  • 音声: MP3, WAV, M4A, FLAC, OGG

出力

  • SRT: 標準字幕フォーマット
  • VTT: Web用字幕
  • TXT: プレーンテキスト
  • JSON: タイムスタンプ付き

Troubleshooting

問題 解決策
CUDA out of memory 小さいモデル使用 or WHISPER_DEVICE=cpu
CPU版でクラッシュ small以下のモデルを使用(medium以上はメモリ不足の可能性)
文字起こし精度低い MODEL=large-v3 を使用(要GPU)
API エラー OPENAI_API_KEY 確認
処理が遅い GPU使用 or APIモード推奨

Related Skills

  • video-download - 動画ダウンロード
  • video-production - 動画編集
  • japanese-tts-reading - テキスト読み上げ