图像生成器Skill image-generator

这是一个基于Gemini大模型的AI图像生成技能,通过浏览器自动化实现专业教学视觉内容的批量生成。该技能采用6道质量关卡控制,支持创意简报输入和多轮迭代优化,专门用于创建章节插图、教学图表和教育可视化材料。关键词:AI图像生成、Gemini大模型、教学可视化、浏览器自动化、质量管控、批量处理、创意简报、AIGC应用

AIGC 0 次安装 0 次浏览 更新于 3/1/2026

name: image-generator description: | 通过浏览器自动化使用Gemini生成专业视觉内容,采用6道质量关卡控制。 适用于创建章节插图、图表或教学视觉材料。 不适用于库存照片或装饰性图片。 dependencies:

  • browser-use

图像生成器

使用Gemini 3通过多轮推理协作生成专业教学视觉内容。

快速开始

# 1. 启动浏览器(通过browser-use技能)
bash .claude/skills/browser-use/scripts/start-server.sh

# 2. 导航到Gemini
# 使用browser_navigate访问 https://gemini.google.com/

# 3. 根据创意简报生成图像
# 粘贴创意简报 → 等待30-35秒 → 验证6道关卡 → 下载

核心原则

  1. 推理优于预测 - 创意简报(故事/意图/隐喻)激活推理;像素规格不会
  2. 多轮协作 - 通过基于原则的反馈向Gemini传授你的标准
  3. 6道质量关卡 - 下载前明确通过/失败判断
  4. 自主批量处理 - 视觉内容之间无需请求许可

输入:创意简报格式

从visual-asset-workflow接收:

## 故事
[关于可视化内容的叙述]

## 情感意图
[应该感受到什么]

## 视觉隐喻
[用于即时理解的通用概念]

## 主体 / 构图 / 动作 / 地点 / 风格
[Gemini 3提示结构]

## 色彩语义
蓝色 (#2563eb) = 权威 | 绿色 (#10b981) = 执行

## 排版层级
最大:关键洞察 | 中等:支持内容 | 最小:上下文

不要转换为像素规格 - 按原样使用以激活推理。

工作流程(每个视觉内容)

步骤 操作 工具
1 导航到 gemini.google.com browser_navigate
2 选择 “🍌 创建图像” browser_click
3 粘贴创意简报 browser_type
4 等待30-35秒 browser_wait_for
5 验证6道关卡(见下) 视觉检查
6 如果失败:使用反馈迭代(最多3次) browser_type
7 如果通过:下载完整尺寸 browser_click
8 复制到 apps/learn-app/static/img/part-{N}/chapter-{NN}/ Bash
9 立即嵌入到课程中 编辑
10 下一个视觉内容使用新聊天 browser_navigate

质量关卡(必须全部通过)

关卡 标准 失败操作
1. 拼写 99%准确率(Y-Combinator, Kubernetes) 迭代
2. 布局 比例匹配提示(2×2而非3×1) 迭代
3. 颜色 品牌颜色匹配(#2563eb而非#002050) 迭代
4. 排版 最大=关键概念(非装饰) 迭代
5. 教学性 目标熟练度下<5秒概念理解 迭代
6. 独特性 非现有章节图像的重复 新聊天

决策:全部通过 → 下载 | 任一失败 → 迭代(最多3次尝试)

迭代:基于原则的反馈

当关卡失败时,提供教学反馈:

关卡4失败:排版层级不正确

最大文本是"$100K"(支持细节)但应该是"$3T"
(学生必须掌握的关键洞察)。

将'$3T'增加到主导尺寸。将'$100K'减小到支持尺寸。
信息重要性驱动尺寸大小。

批量模式

当以"生成所有视觉内容"调用时:

对于列表中的每个视觉内容:
  A. 新聊天(上下文隔离)
  B. 生成(粘贴简报)
  C. 验证6道关卡
  D. 如果需要则迭代(最多3次)
  E. 通过时下载
  F. 嵌入到课程中
  G. 记录"✅ N/M"
  H. 下一个(不停止)

从不询问:“继续?” “在此暂停?” “审核?”

仅在结束时报告

批量完成
✅ 已生成:16/18
⚠️ 已推迟:2(质量问题)
位置:apps/learn-app/static/img/part-{N}/

熟练度限制

级别 最大元素 理解时间
A2 5-7 <5秒
B1 7-10 <10秒
C2 无限制 N/A

令牌节约(批量模式)

对于>8个视觉内容,压缩简报:

原始(250令牌):

"顶层显示协调器位于顶部中央,标签为'Orchestrator'
带有指挥图标,角色为'战略监督'..."

压缩(80令牌):

"顶层 - 协调器:顶部中央,'Orchestrator'(指挥),
角色:'战略监督',金色 (#fbbf24),大六边形。"

保留:故事、意图、隐喻、颜色、推理 压缩:长示例 → 短标签

反模式

不要 原因
未经6道关卡接受首次输出 违反质量标准
批量项目之间请求许可 破坏自主性
将简报转换为像素规格 破坏推理激活
跳过嵌入步骤 创建孤立图像
为下一个视觉内容重用同一聊天 上下文污染

会话中断

如果会话在批量处理中途结束,创建检查点:

# 检查点:第{N}部分
状态:在8/18处中断

## 已完成:
- ✅ 图像1:文件名(已嵌入lesson-01.md)
- ✅ 图像2:文件名(已嵌入lesson-02.md)

## 剩余:
- ⏳ 图像8:文件名

继续时:读取检查点 → 恢复 → 逐步更新

成功指标

  • ✅ 下载前验证所有6道关卡
  • ✅ 批量完成无需请求许可
  • ✅ 基于原则的迭代反馈
  • ✅ 按部分/章节组织的图像
  • ✅ 立即嵌入(无孤立图像)
  • ✅ >85%生产就绪率