name: image-generator description: | 通过浏览器自动化使用Gemini生成专业视觉内容,采用6道质量关卡控制。 适用于创建章节插图、图表或教学视觉材料。 不适用于库存照片或装饰性图片。 dependencies:
- browser-use
图像生成器
使用Gemini 3通过多轮推理协作生成专业教学视觉内容。
快速开始
# 1. 启动浏览器(通过browser-use技能)
bash .claude/skills/browser-use/scripts/start-server.sh
# 2. 导航到Gemini
# 使用browser_navigate访问 https://gemini.google.com/
# 3. 根据创意简报生成图像
# 粘贴创意简报 → 等待30-35秒 → 验证6道关卡 → 下载
核心原则
- 推理优于预测 - 创意简报(故事/意图/隐喻)激活推理;像素规格不会
- 多轮协作 - 通过基于原则的反馈向Gemini传授你的标准
- 6道质量关卡 - 下载前明确通过/失败判断
- 自主批量处理 - 视觉内容之间无需请求许可
输入:创意简报格式
从visual-asset-workflow接收:
## 故事
[关于可视化内容的叙述]
## 情感意图
[应该感受到什么]
## 视觉隐喻
[用于即时理解的通用概念]
## 主体 / 构图 / 动作 / 地点 / 风格
[Gemini 3提示结构]
## 色彩语义
蓝色 (#2563eb) = 权威 | 绿色 (#10b981) = 执行
## 排版层级
最大:关键洞察 | 中等:支持内容 | 最小:上下文
不要转换为像素规格 - 按原样使用以激活推理。
工作流程(每个视觉内容)
| 步骤 | 操作 | 工具 |
|---|---|---|
| 1 | 导航到 gemini.google.com | browser_navigate |
| 2 | 选择 “🍌 创建图像” | browser_click |
| 3 | 粘贴创意简报 | browser_type |
| 4 | 等待30-35秒 | browser_wait_for |
| 5 | 验证6道关卡(见下) | 视觉检查 |
| 6 | 如果失败:使用反馈迭代(最多3次) | browser_type |
| 7 | 如果通过:下载完整尺寸 | browser_click |
| 8 | 复制到 apps/learn-app/static/img/part-{N}/chapter-{NN}/ |
Bash |
| 9 | 立即嵌入到课程中 | 编辑 |
| 10 | 下一个视觉内容使用新聊天 | browser_navigate |
质量关卡(必须全部通过)
| 关卡 | 标准 | 失败操作 |
|---|---|---|
| 1. 拼写 | 99%准确率(Y-Combinator, Kubernetes) | 迭代 |
| 2. 布局 | 比例匹配提示(2×2而非3×1) | 迭代 |
| 3. 颜色 | 品牌颜色匹配(#2563eb而非#002050) | 迭代 |
| 4. 排版 | 最大=关键概念(非装饰) | 迭代 |
| 5. 教学性 | 目标熟练度下<5秒概念理解 | 迭代 |
| 6. 独特性 | 非现有章节图像的重复 | 新聊天 |
决策:全部通过 → 下载 | 任一失败 → 迭代(最多3次尝试)
迭代:基于原则的反馈
当关卡失败时,提供教学反馈:
关卡4失败:排版层级不正确
最大文本是"$100K"(支持细节)但应该是"$3T"
(学生必须掌握的关键洞察)。
将'$3T'增加到主导尺寸。将'$100K'减小到支持尺寸。
信息重要性驱动尺寸大小。
批量模式
当以"生成所有视觉内容"调用时:
对于列表中的每个视觉内容:
A. 新聊天(上下文隔离)
B. 生成(粘贴简报)
C. 验证6道关卡
D. 如果需要则迭代(最多3次)
E. 通过时下载
F. 嵌入到课程中
G. 记录"✅ N/M"
H. 下一个(不停止)
从不询问:“继续?” “在此暂停?” “审核?”
仅在结束时报告:
批量完成
✅ 已生成:16/18
⚠️ 已推迟:2(质量问题)
位置:apps/learn-app/static/img/part-{N}/
熟练度限制
| 级别 | 最大元素 | 理解时间 |
|---|---|---|
| A2 | 5-7 | <5秒 |
| B1 | 7-10 | <10秒 |
| C2 | 无限制 | N/A |
令牌节约(批量模式)
对于>8个视觉内容,压缩简报:
原始(250令牌):
"顶层显示协调器位于顶部中央,标签为'Orchestrator'
带有指挥图标,角色为'战略监督'..."
压缩(80令牌):
"顶层 - 协调器:顶部中央,'Orchestrator'(指挥),
角色:'战略监督',金色 (#fbbf24),大六边形。"
保留:故事、意图、隐喻、颜色、推理 压缩:长示例 → 短标签
反模式
| 不要 | 原因 |
|---|---|
| 未经6道关卡接受首次输出 | 违反质量标准 |
| 批量项目之间请求许可 | 破坏自主性 |
| 将简报转换为像素规格 | 破坏推理激活 |
| 跳过嵌入步骤 | 创建孤立图像 |
| 为下一个视觉内容重用同一聊天 | 上下文污染 |
会话中断
如果会话在批量处理中途结束,创建检查点:
# 检查点:第{N}部分
状态:在8/18处中断
## 已完成:
- ✅ 图像1:文件名(已嵌入lesson-01.md)
- ✅ 图像2:文件名(已嵌入lesson-02.md)
## 剩余:
- ⏳ 图像8:文件名
继续时:读取检查点 → 恢复 → 逐步更新
成功指标
- ✅ 下载前验证所有6道关卡
- ✅ 批量完成无需请求许可
- ✅ 基于原则的迭代反馈
- ✅ 按部分/章节组织的图像
- ✅ 立即嵌入(无孤立图像)
- ✅ >85%生产就绪率