| name | calibrating-transcribed-subtitles |
| description | 校准和修正 AI 自动转录生成的字幕文本,包括专业术语校正、断句优化、格式统一和口语化内容润色。当用户提供 SRT/VTT 字幕文件、转录文本,或要求修正字幕错误、优化字幕可读性、统一术语表达时使用。 |
转录字幕校准
快速开始
- 加载用户提供的字幕文件或转录文本
- 参考 GLOSSARY.md 中的术语表进行校准
- 按工作流完成校准和输出
工作流
字幕校准进度:
- [ ] 步骤 1:加载并分析字幕内容
- [ ] 步骤 2:术语校正(参考术语表)
- [ ] 步骤 3:断句和格式优化
- [ ] 步骤 4:口语化内容润色
- [ ] 步骤 5:输出校准后的字幕
步骤 1:加载并分析字幕内容
支持的格式:
.srt:标准字幕格式(带时间戳和序号).vtt:WebVTT 格式- 纯文本:转录文本(无时间戳)
分析要点:
- 识别领域(技术、学术、商业等)
- 检测主要语言和混用情况
- 评估转录质量和常见错误类型
步骤 2:术语校正
参考 GLOSSARY.md 进行术语校正。
校正优先级:
- 专有名词:人名、公司名、产品名
- 技术术语:行业专业词汇
- 同音异义词:依赖上下文判断
- 缩写和首字母词:确保一致性
常见 AI 转录错误模式:
| 错误类型 | 示例 | 校正 |
|---|---|---|
| 同音错误 | "他的" → "它的" | 根据上下文 |
| 专业术语 | "A派" → "API" | 技术领域 |
| 连读误识 | "这个的" → "这个" | 删除冗余 |
| 数字混淆 | "一百万" vs "1000000" | 统一格式 |
步骤 3:断句和格式优化
断句原则:
- 每行不超过 40 个中文字符或 80 个英文字符
- 在自然停顿处断句(逗号、句号、语气停顿)
- 保持语义完整,避免中途断句
- 时间戳精度保持在 0.1 秒以内
格式规范:
1
00:00:01,000 --> 00:00:04,500
大家好,今天我们来聊一下
人工智能的最新发展趋势
2
00:00:04,500 --> 00:00:08,200
首先,让我们看一下
大语言模型领域的进展
步骤 4:口语化内容润色
处理原则:
- 删除过多的语气词("呃"、"那个"、"就是说")
- 保留必要的语气词以保持自然感
- 修正语法错误,但保持口语风格
- 避免过度书面化
示例:
| 原始转录 | 校准后 |
|---|---|
| 呃...就是说...这个技术它其实是... | 这个技术其实是... |
| 然后的话呢我们可以看到说这个... | 我们可以看到这个... |
| 对对对没错没错 | 没错 |
步骤 5:输出校准后的字幕
输出格式:保持与输入相同的格式(SRT/VTT/纯文本)
质量检查清单:
- 术语表中的词汇已统一校正
- 断句自然,每行长度适中
- 时间戳与语音同步
- 口语化内容已适当润色
- 格式符合规范
术语表使用
术语表存放在 GLOSSARY.md 中,包含:
- 常见 AI/技术术语
- 人名/公司名/产品名
- 行业专用缩写
使用方式:
- 首先检查术语表中是否有相关条目
- 按照术语表中的标准写法进行替换
- 如发现新的高频术语,建议添加到术语表
输出模板
SRT 格式
1
00:00:00,000 --> 00:00:03,500
[校准后的第一句]
2
00:00:03,500 --> 00:00:07,000
[校准后的第二句]
校准报告(可选)
## 校准报告
**原始文件**:[文件名]
**总时长**:[时长]
**修改统计**:
- 术语校正:[N] 处
- 断句调整:[N] 处
- 口语润色:[N] 处
**主要修改**:
1. [修改说明 1]
2. [修改说明 2]
特殊情况处理
| 情况 | 处理方式 |
|---|---|
| 术语表无对应条目 | 保持原样,必要时标注 [?] |
| 模糊不清的语音 | 保留原转录,添加 [inaudible] 标记 |
| 多语言混用 | 分别处理,保持语言一致性 |
| 背景音乐/杂音 | 添加 [♪ 音乐 ♪] 或 [背景杂音] 标记 |