name	jimeng_mcp_skill
description	使用jimeng-mcp-server进行AI图像和视频生成。当用户请求从文本生成图像、合成多张图片、从文本描述创建视频或为静态图像添加动画时使用此技能。支持四大核心能力：文生图、图像合成、文生视频、图生视频。需要jimeng-mcp-server在本地运行或通过SSE/HTTP访问。

即梦 AI 生成技能

概述

即梦技能通过 jimeng-mcp-server 实现 AI 驱动的图像和视频生成，这是一个集成了即梦 AI 多模态生成能力的 MCP（模型上下文协议）服务器。使用此技能可以直接通过自然语言指令创建视觉内容。

核心能力：

🎨 文本生成图像：从文本描述生成高质量图像
🎭 图像合成：智能合并和融合多张图片
🎬 文本生成视频：从文本提示创建短视频
🎞️ 图像生成视频：为静态图像添加动画效果

何时使用此技能：

用户要求生成、创建或制作图像或视频
用户提到"jimeng"、"即梦"或请求AI视觉内容生成
用户提供文本描述并希望得到视觉输出
用户想要组合、合并或合成多张图片
用户想为静态图像添加动画或运动效果

前置条件

使用此技能前，请确保 jimeng-mcp-server 已正确配置：

服务器必须运行，通过以下模式之一：
- stdio 模式：在 MCP 客户端（Claude Desktop、Cherry Studio）中配置
- SSE 模式：作为带 SSE 传输的 HTTP 服务器运行
- HTTP 模式：作为 REST API 服务器运行
环境变量已配置：
- JIMENG_API_KEY：您的即梦 API 密钥（从即梦网站 cookies 获取）
- JIMENG_API_URL：API 端点（默认：http://127.0.0.1:8001）
- JIMENG_MODEL：模型名称（默认：jimeng-4.5）
后端 API 运行中：jimeng-free-api-all Docker 容器必须处于活动状态

详细的设置说明请参考 references/setup_guide.md。

快速开始

基本使用模式

当用户请求图像或视频生成时，遵循以下工作流程：

识别任务类型，基于用户输入
提取必需参数，从请求中获取
调用相应的 jimeng-mcp-server 工具
返回生成的内容 URL 给用户

示例请求

文本生成图像：

用户："用即梦生成一张图片：樱花树下的柴犬"
→ 使用 text_to_image 工具，参数 prompt="樱花树下的柴犬"

图像合成：

用户："帮我合成这两张图片，风格偏向第一张"
→ 使用 image_composition 工具，提供图片 URL

文本生成视频：

用户："创建一个5秒视频：小马过河的故事场景"
→ 使用 text_to_video 工具，设置提示词和时长

图像生成视频：

用户："为这张图片添加动画效果"
→ 使用 image_to_video 工具，提供图片 URL

核心能力

1. 文本生成图像

使用即梦 4.5 引擎从文本描述生成图像。

工具：text_to_image

参数：

prompt（必需）：期望图像的文本描述
model（可选）：模型版本（默认：jimeng-4.5）
ratio（可选）：图像宽高比（"1:1", "4:3", "3:4", "16:9", "9:16"）
resolution（可选）：分辨率预设（"1k", "2k", "4k"，默认：2k）
negativePrompt（可选）：要在生成图像中避免的元素

常见宽高比：

16:9 → 横向/宽屏（视频封面、Banner）
1:1 → 正方形（头像、社交媒体）
9:16 → 竖向/手机屏幕（短视频封面）
4:3 → 标准横向（博客配图）
3:4 → 标准竖向（人像照片）

使用示例：

# 用户请求："生成一张图片：夕阳下的海滩，有椰子树"
{
  "model": "jimeng-4.5",
  "prompt": "夕阳下的海滩，有椰子树",
  "ratio": "16:9",
  "resolution": "2k"
}

返回结果： 返回包含多张图片 URL 的数组，可显示或下载。

提示：

更高分辨率（4k）适合印刷品和高质量展示
较低分辨率（1k）适合快速预览
使用描述性提示词以获得更好的结果
指定艺术风格、光照、氛围以增强控制

2. 图像合成

通过智能融合合并和混合多张图片。

工具：image_composition

参数：

prompt（必需）：如何合成图片的描述
images（必需）：要合成的 2-5 个图片 URL 数组
model（可选）：模型版本（默认：jimeng-4.5）
ratio（可选）：输出图像宽高比（"1:1", "4:3", "3:4", "16:9", "9:16"）
resolution（可选）：分辨率预设（"1k", "2k", "4k"，默认：2k）

使用示例：

# 用户请求："合成这两张图，保留第一张的风格"
{
  "model": "jimeng-4.5",
  "prompt": "将两张图片无缝融合，保持第一张图片的艺术风格",
  "images": [
    "https://example.com/image1.jpg",
    "https://example.com/image2.jpg"
  ],
  "ratio": "4:3",
  "resolution": "2k"
}

使用场景：

将人像与背景融合
图片之间的风格迁移
创建艺术合成作品
合并多张照片的元素

提示：

在提示词中提供清晰的合成说明
图片应具有兼容的分辨率
描述期望的混合风格（无缝、艺术、真实）

3. 文本生成视频

从文本描述创建短视频。

工具：text_to_video

参数：

prompt（必需）：视频场景的文本描述
model（可选）：模型版本（默认：jimeng-video-3.0）
ratio（可选）：视频宽高比（"16:9", "9:16", "4:3", "3:4", "1:1"）
resolution（可选）：预设分辨率（"480p", "720p", "1080p"）

分辨率预设：

"480p" → 快速预览
"720p" → 平衡质量/速度（推荐）
"1080p" → 高质量

使用示例：

# 用户请求："生成5秒视频：小猫在钓鱼"
{
  "model": "jimeng-video-3.0",
  "prompt": "一只橘色小猫坐在河边，手持鱼竿专注地钓鱼，阳光明媚",
  "ratio": "16:9",
  "resolution": "720p"
}

视频特性：

时长：通常 3-5 秒
格式：MP4
生成时间：30-60 秒
帧率：24-30 fps

提示：

包含场景细节、动作和氛围
保持提示词专注于单一清晰的动作
指定一天中的时间、天气或情绪以获得更好的结果
从 720p 开始以平衡质量和速度

4. 图像生成视频动画

为静态图像添加运动和动画效果。

工具：image_to_video

参数：

prompt（必需）：期望动画效果的描述
file_paths（必需）：要添加动画的图片 URL 数组
model（可选）：模型版本（默认：jimeng-video-3.0）
ratio（可选）：视频宽高比（"16:9", "9:16", "4:3", "3:4", "1:1"）
resolution（可选）：预设分辨率（"480p", "720p", "1080p"）

使用示例：

# 用户请求："让这张照片动起来，添加轻柔的镜头缩放"
{
  "model": "jimeng-video-3.0",
  "prompt": "添加轻柔的运动效果和自然的镜头缩放，营造电影感",
  "file_paths": ["https://example.com/photo.jpg"],
  "ratio": "16:9",
  "resolution": "720p"
}

动画类型：

人物动作（Character motion）
镜头运动（Camera movements）
场景转换（Scene transitions）
环境效果（Environmental effects：风、雨等）

提示：

描述期望的运动类型
选择效果时考虑图像内容
人像照片适合细微的动作
风景照片适合平移/缩放效果

工作流程指南

决策树

收到用户请求
    │
    ├─ 包含"生成图片"或"create image"？
    │   └─ 是 → 使用 text_to_image
    │
    ├─ 包含"合成"或"merge/blend images"？
    │   └─ 是 → 使用 image_composition
    │
    ├─ 包含"生成视频"或"create video"？
    │   └─ 是 → 使用 text_to_video
    │
    └─ 包含"动画"或"animate image"？
        └─ 是 → 使用 image_to_video

参数提取

处理用户请求时：

提取提示词：用户对期望内容的描述
识别宽高比：提取尺寸偏好（横向/竖向/正方形）对应 ratio 参数
解析分辨率需求：寻找质量要求，对应 resolution 参数
收集图片 URL：用于合成和动画任务

错误处理

如果工具执行失败：

检查服务器状态：验证 jimeng-mcp-server 是否运行
验证 API 密钥：确保 JIMENG_API_KEY 已配置
检查参数：确认所有必需字段已提供
检查图片 URL：验证合成/动画的 URL 是否可访问
清晰报告错误：解释问题并建议解决方案

常见错误：

API key not configured：在环境中设置 JIMENG_API_KEY
Server not responding：启动 jimeng-free-api-all Docker 容器
Invalid image URL：确保 URL 公开可访问
Generation timeout：大型视频可能需要 60+ 秒

高级用法

组合多个工具

对于复杂的创意任务，可以链式使用工具：

示例：创建动画艺术作品

使用 text_to_image 生成基础图像
使用 image_to_video 为结果添加动画

示例：合成和优化

使用 image_composition 合成图片
使用调整后的提示词生成变体

优化技巧

加快生成速度：

使用较低分辨率（720p 而非 1080p，或 1k 而非 2k）
保持提示词简洁但具有描述性

提高质量：

使用详细、具体的提示词
根据场景选择合适的 ratio（宽高比）
使用更高的 resolution（2k 或 4k）
指定艺术风格和技术
包含光照和氛围描述

批量处理

当用户请求多次生成时：

按顺序处理请求（一次一个）
为每个项目提供进度更新
在最终响应前收集所有结果
考虑资源限制（API 配额）

故障排除

服务器连接问题

症状：工具返回连接错误

解决方案：

检查 jimeng-free-api-all Docker 容器是否运行：
```
docker ps | grep jimeng
```
验证服务器是否可访问：
```
curl http://127.0.0.1:8001/health
```
如有需要重启 Docker 容器

API 密钥问题

症状："Invalid API key"或身份验证错误

解决方案：

验证 .env 文件中的 JIMENG_API_KEY
从即梦网站 cookies 获取新的 API 密钥（sessionid 值）
确保密钥格式正确（无额外空格或引号）

生成质量问题

症状：质量差或意外结果

解决方案：

使用更具体的细节优化提示词
调整 ratio 参数选择合适的宽高比
尝试不同的 resolution 分辨率
添加 negativePrompt 以排除不需要的元素

超时错误

症状：生成时间过长或超时

解决方案：

视频生成通常需要 30-60 秒 - 请耐心等待
如果持续超时，尝试较低分辨率
检查服务器资源使用情况
验证到即梦 API 的网络连接

资源

references/

setup_guide.md：详细的安装和配置说明
api_reference.md：所有工具的完整 API 文档

项目链接

GitHub 仓库：https://github.com/wwwzhouhui/jimeng-mcp-server
后端 API：https://github.com/wwwzhouhui/jimeng-free-api-all
即梦官网：https://jimeng.jianying.com/

最佳实践

始终在尝试生成前验证服务器状态
根据用例和速度要求使用适当的分辨率（ratio 控制比例，resolution 控制清晰度）
提供详细的提示词以获得更好的生成质量
优雅地处理错误并提供清晰的用户反馈
处理多个请求时考虑速率限制
在复杂合成前先用简单提示词测试
缓存常用参数，如首选 ratio 和 resolution

限制

免费层限制：官方即梦 API 每天 66 积分
视频时长：通常限制为 3-10 秒
生成时间：视频可能需要 30-60 秒生成
图像合成：2-3 张图片效果最佳，最多支持 5 张
服务器依赖：需要 jimeng-free-api-all 后端运行
网络要求：必须有互联网访问以调用即梦 API

jimeng_mcp_skill

Install Skill

SKILL.md

即梦 AI 生成技能

概述

前置条件

快速开始

基本使用模式

示例请求

核心能力

1. 文本生成图像

2. 图像合成

3. 文本生成视频

4. 图像生成视频动画

工作流程指南

决策树

参数提取

错误处理

高级用法

组合多个工具

优化技巧

批量处理

故障排除

服务器连接问题

API 密钥问题

生成质量问题

超时错误

资源

references/

项目链接

最佳实践

限制