名称: 图像生成 描述: | 使用Google Gemini、Google Imagen和OpenAI模型的AI驱动图像生成和编辑。 从文本描述生成图像,编辑现有图像,创建标志/贴纸,应用风格转移,生成产品模型。
在用户请求以下内容时使用此技能:
- 从文本描述生成图像
- 图像编辑或修改
- 标志、贴纸或图形设计资产
- 产品模型或可视化
- 风格转移或艺术效果
- 迭代图像精炼
可用模型:
- Google Gemini: gemini-2.5-flash-image (Nano Banana), gemini-3-pro-image-preview (Nano Banana Pro)
- Google Imagen: imagen-4.0-generate-001, imagen-4.0-ultra-generate-001, imagen-4.0-fast-generate-001
- OpenAI: gpt-image-1.5 (推荐), gpt-image-1, dall-e-3, dall-e-2
灵感来源: https://github.com/EveryInc/every-marketplace/tree/main/plugins/compounding-engineering/skills/gemini-imagegen 允许工具: [“Bash”, “Read”, “Write”, “AskUserQuestion”, “WebFetch”]
图像生成
重要 (2025年12月):
google-generativeai包已弃用。 此技能现在使用google-genaiSDK。如果从旧代码升级,请参见 迁移指南。
目的
此技能通过Google的Gemini图像模型和OpenAI的DALL-E模型实现AI驱动的图像生成和编辑。从自然语言描述创建逼真图像、插图、标志、贴纸和产品模型。通过文本指令编辑现有图像,应用风格转移,并通过迭代对话精炼输出。
归属: 此技能灵感来自 Every Marketplace 的 gemini-imagegen 技能。
何时使用
此技能应在用户要求以下内容时调用:
- 从文本描述生成图像 (“创建一张…的图像”, “生成一张图片…”)
- 创建标志、图标或贴纸 (“为…设计标志”, “制作贴纸…”)
- 编辑或修改现有图像 (“将背景更改为…”, “添加…到此图像”)
- 应用艺术风格或效果 (“使其看起来像…”, “风格化为…”)
- 创建产品模型或可视化 (“产品照片…”, “模型显示…”)
- 精炼或迭代图像 (“使其更…”, “调整…”, “再次尝试…”)
- 以不同风格或构图生成变体
可用模型
Google Gemini 模型 (Nano Banana)
-
gemini-2.5-flash-image (“Nano Banana”)
- 分辨率: 1K (1024px), 支持2K
- 宽高比: 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9
- 最适合: 速度、高批量操作、快速迭代、图像编辑
- 使用场景: 快速原型、多个变体、时间敏感请求
- 成本: 约$0.039每图像 (约$30每百万输出令牌)
-
gemini-3-pro-image-preview (“Nano Banana Pro”)
- 分辨率: 1K默认, 支持2K和4K
- 宽高比: 与Flash相同
- 最适合: 专业资产、复杂指令、最高质量
- 使用场景: 最终交付物、详细构图、文本密集型设计
- 特殊功能:
- Google搜索接地用于实时数据可视化
- "思考"模式进行临时构图精炼
- 最多14个参考图像 (6个对象, 5个人类用于角色一致性)
- 高级文本渲染
Google Imagen 4 系列 (新)
-
imagen-4.0-fast-generate-001 (“Imagen 4 Fast”)
- 分辨率: 标准
- 最适合: 快速生成、高批量任务
- 使用场景: 速度优先、预算意识
- 成本: $0.02每图像
- 注意: 仅文本输入 (无图像编辑)
-
imagen-4.0-generate-001 (“Imagen 4”)
- 分辨率: 高达2K
- 最适合: 高质量逼真图像、优秀文本渲染
- 使用场景: 需要专业质量、图像中的文本
- 特点: 与前代Imagen模型相比,文本渲染有显著改进
-
imagen-4.0-ultra-generate-001 (“Imagen 4 Ultra”)
- 分辨率: 高达2K
- 最适合: 最高质量、详细视觉
- 使用场景: 质量至关重要时 (一次仅生成一个图像)
- 限制: 每个请求仅生成一个图像
OpenAI GPT 图像模型
-
gpt-image-1.5 (推荐 - 2025年12月)
- 分辨率: 1024x1024, 1536x1024, 1024x1536, 或自动
- 最适合: 生产质量视觉、精确编辑、角色一致性
- 使用场景: 专业设计、迭代工作流、文本密集型图像
- 特点:
- 比gpt-image-1快4倍,成本低20%
- 内置推理和世界知识
- 编辑期间精确标志和面部保留
- 优秀文本渲染 (清晰字母、密集文本)
- 复杂结构化视觉 (信息图表、图表、多面板)
- 流支持
- 输出格式: png, jpeg, webp (带压缩控制)
- 透明度: 透明、不透明或自动背景
-
gpt-image-1 (2025年4月)
- 分辨率: 高达4096x4096
- 最适合: 高分辨率图像、创意工作流
- 使用场景: 需要最大分辨率
- 成本: 约$0.02 (低), 约$0.07 (中), 约$0.19 (高) 每图像
- 输出格式: png, jpeg, webp
- 注意: 每个请求单图像,无修复
传统 OpenAI DALL-E 模型
-
dall-e-3
- 分辨率: 1024x1024, 1024x1792, 1792x1024
- 最适合: 创意解释、艺术渲染
- 使用场景: 偏好自然艺术风格
- 注意: 自动提示扩展
-
dall-e-2
- 分辨率: 1024x1024, 512x512, 256x256
- 最适合: 更快生成、最低成本、变体
- 使用场景: 预算意识、简单图像
- 独特功能: 可以生成现有图像的变体
模型选择逻辑
询问用户或使用此决策树:
需要图像编辑或迭代精炼?
├─ 是 → gpt-image-1.5 (最佳编辑) 或 gemini-2.5-flash-image (多轮聊天)
└─ 否 → 仅文本转图像
├─ 需要最高质量?
│ ├─ 文本渲染关键 → gpt-image-1.5 或 imagen-4.0-generate-001
│ ├─ 最大分辨率 (4K) → gemini-3-pro-image-preview
│ ├─ 超高质量 (单图像) → imagen-4.0-ultra-generate-001
│ └─ 角色一致性 → gpt-image-1.5 或 gemini-3-pro-image-preview
├─ 需要速度/批量?
│ ├─ 最便宜 → imagen-4.0-fast-generate-001 ($0.02)
│ └─ 快速 + 编辑 → gemini-2.5-flash-image
└─ 平衡默认 → gpt-image-1.5 (推荐)
快速参考:
- 最佳整体:
gpt-image-1.5- 快速、经济、优秀编辑和文本 - 最佳文本渲染:
gpt-image-1.5或imagen-4.0-generate-001 - 最佳4K分辨率:
gemini-3-pro-image-preview - 每图像最便宜:
imagen-4.0-fast-generate-001($0.02) - 最佳参考图像:
gemini-3-pro-image-preview(最多14个参考) - 最佳迭代编辑:
gpt-image-1.5(面部/标志保留)
如果用户有特定模型偏好,则使用该模型。
能力
- 文本转图像生成: 从详细文本描述创建图像
- 图像编辑: 使用文本指令修改现有图像
- 风格转移: 应用艺术风格、滤镜和效果
- 标志和贴纸设计: 生成具有特定风格的品牌资产
- 产品模型: 创建专业产品摄影和演示
- 多轮精炼: 通过对话迭代改进图像
- 宽高比控制: 以各种格式生成图像 (方形、纵向、横向、宽屏)
- 基于参考的生成: 使用现有图像作为构图参考 (Gemini Pro)
指令
步骤1: 理解请求
分析用户请求以确定:
- 类型: 文本转图像、图像编辑、风格转移、标志/贴纸、模型
- 主题: 图像中应包含什么
- 风格: 逼真、插图、艺术、极简等
- 细节: 颜色、灯光、构图、情绪、特定元素
- 格式: 宽高比、分辨率要求
- 紧急程度: 速度与质量权衡
步骤2: 选择模型
基于需求:
- 高质量 + 复杂性 →
gemini-3-pro-image-preview - 速度 + 迭代 →
gemini-2.5-flash-image - DALL-E 偏好 →
dall-e-3或dall-e-2
如果不清晰,使用 AskUserQuestion 工具澄清模型偏好。
步骤3: 制作有效提示
按照这些模式构建详细提示:
对于逼真图像:
[主题], [相机细节], [灯光], [情绪/氛围], [构图]
示例: "女性特写肖像,85mm镜头,柔和金色小时灯光,
宁静情绪,浅景深,专业摄影"
对于插图/艺术:
[主题], [艺术风格], [调色板], [细节], [情绪]
示例: "卡哇伊猫贴纸,粗黑色轮廓,卡通着色,
柔和色彩,可爱表情,Q版风格"
对于标志:
[概念], [风格], [元素], [颜色], [上下文]
示例: "科技初创公司标志,极简几何设计,抽象网络节点,
蓝银渐变,专业,矢量风格"
对于产品摄影:
[产品], [设置], [灯光], [展示], [上下文]
示例: "无线耳机,白色背景,工作室灯光,3/4角度视图,
清洁极简构图,电子商务产品拍摄"
关键原则:
- 具体和详细
- 包括灯光、构图和情绪
- 明确指定风格 (逼真、插图等)
- 对于逼真图像,提及相机/镜头 (85mm、广角、微距)
- 对于图像中的文本,使用Pro模型并指定确切文本
步骤4: 实现API调用
对于Gemini模型:
注意:
google.generativeai包已弃用。使用google.genai代替。 参见迁移指南: https://ai.google.dev/gemini-api/docs/migrate
from google import genai
from google.genai import types
from pathlib import Path
# 初始化客户端 (自动使用 GEMINI_API_KEY 或 GOOGLE_API_KEY 环境变量)
client = genai.Client()
# 基本文本转图像
response = client.models.generate_content(
model="gemini-2.5-flash-image", # 或 gemini-3-pro-image-preview
contents=prompt_text,
config=types.GenerateContentConfig(
response_modalities=["TEXT", "IMAGE"],
# 可选配置:
# image_config=types.ImageConfig(
# aspect_ratio="1:1", # 1:1, 3:4, 4:3, 9:16, 16:9, 21:9
# image_size="1K", # 1K, 2K, 4K (仅Pro)
# )
)
)
# 提取并保存图像
for part in response.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = part.as_image()
image.save("output.png")
# 对于图像编辑 (传递现有图像):
from PIL import Image
image = Image.open("input.png")
response = client.models.generate_content(
model="gemini-2.5-flash-image",
contents=[image, "将背景改为日落场景"],
config=types.GenerateContentConfig(response_modalities=["TEXT", "IMAGE"])
)
# 对于多轮精炼 (使用聊天):
chat = client.chats.create(
model="gemini-2.5-flash-image",
config=types.GenerateContentConfig(response_modalities=["TEXT", "IMAGE"])
)
response1 = chat.send_message("未来城市天际线")
response2 = chat.send_message("添加更多霓虹灯和飞行汽车")
对于Google Imagen 4模型:
from google import genai
from google.genai import types
# 初始化客户端 (自动使用 GEMINI_API_KEY 或 GOOGLE_API_KEY 环境变量)
client = genai.Client()
# Imagen 4文本转图像 (无编辑支持)
# 也可用: imagen-4.0-fast-generate-001, imagen-4.0-ultra-generate-001
response = client.models.generate_images(
model="imagen-4.0-generate-001",
prompt=prompt_text,
config=types.GenerateImagesConfig(
number_of_images=4, # 标准1-4,Ultra仅1
aspect_ratio="1:1", # 1:1, 3:4, 4:3, 9:16, 16:9
person_generation="allow_adult", # "dont_allow", "allow_adult", "allow_all"
)
)
# 保存图像
for i, generated_image in enumerate(response.generated_images):
generated_image.image.save(f"output_{i}.png")
对于OpenAI模型 (推荐 gpt-image-1.5):
from openai import OpenAI
from pathlib import Path
import base64
client = OpenAI(api_key="OPENAI_API_KEY")
# gpt-image-1.5 生成 (推荐)
response = client.images.generate(
model="gpt-image-1.5",
prompt=prompt_text,
size="1024x1024", # 或 "1536x1024", "1024x1536", "auto"
quality="high", # "low", "medium", "high"
n=1, # 1-10 图像
output_format="png", # "png", "jpeg", "webp"
background="auto", # "transparent", "opaque", "auto"
moderation="auto", # "auto" 或 "low" 限制较少
)
# 响应返回base64数据
image_data = base64.b64decode(response.data[0].b64_json)
Path("output.png").write_bytes(image_data)
# gpt-image-1 生成 (最大4K分辨率)
response = client.images.generate(
model="gpt-image-1",
prompt=prompt_text,
size="1024x1024",
quality="high",
n=1,
)
# 使用 gpt-image-1.5 编辑图像
response = client.images.edit(
model="gpt-image-1.5",
image=open("input.png", "rb"),
prompt="将背景改为海滩日落",
size="1024x1024",
)
# 传统 DALL-E 3 生成
response = client.images.generate(
model="dall-e-3",
prompt=prompt_text,
size="1024x1024", # 或 "1024x1792", "1792x1024"
quality="standard", # 或 "hd"
n=1,
)
image_url = response.data[0].url
# 下载基于URL的响应
import requests
image_data = requests.get(image_url).content
Path("output.png").write_bytes(image_data)
实现方法:
- 使用
Bash工具执行带有API调用的Python脚本 - 检查环境变量中的API密钥
- 优雅处理错误 (API限制、无效提示等)
- 保存图像并带描述性文件名
- 向用户报告图像位置
步骤5: 处理输出
- 保存生成的图像 到适当位置
- 验证输出 是否符合请求
- 向用户展示 保存的文件路径
- 提供精炼 如果结果不完美
- 解释使用的提示 以便用户理解生成
步骤6: 如果需要则迭代
如果用户想要更改:
- 对于Gemini: 使用聊天界面维护上下文
- 对于gpt-image-1.5: 使用编辑API进行精确面部/标志保留
- 对于Imagen/DALL-E: 使用更新提示生成新图像
- 保留先前版本进行比较
- 基于当前结果建议具体调整
要求
API密钥:
- Google (Gemini/Imagen): 设置
GOOGLE_API_KEY或GEMINI_API_KEY环境变量 - OpenAI: 设置
OPENAI_API_KEY环境变量
Python包:
pip install google-genai openai pillow requests
注意:
google-generativeai包已弃用且不再接收更新。 使用google-genai代替。迁移指南: https://ai.google.dev/gemini-api/docs/migrate
系统:
- Python 3.8+
- 互联网连接用于API访问
- 写入权限用于保存图像
近似成本 (每图像):
| 模型 | 低质量 | 高质量 |
|---|---|---|
| imagen-4.0-fast | $0.02 | $0.02 |
| imagen-4.0 | - | 约$0.04 |
| imagen-4.0-ultra | - | 约$0.08 |
| gemini-2.5-flash-image | 约$0.039 | 约$0.039 |
| gpt-image-1.5 | 约$0.016 | 约$0.15 |
| gpt-image-1 | 约$0.02 | 约$0.19 |
| dall-e-3 | 约$0.04 | 约$0.08 |
| dall-e-2 | 约$0.02 | 约$0.02 |
最佳实践
提示工程
-
具体: 模糊提示产生不一致结果
- 差: “一个漂亮的风景”
- 好: “日出时的山谷,湖面薄雾,松树,温暖金色灯光,宁静氛围”
-
为逼真度包括技术细节:
- 相机: “用85mm镜头拍摄”, “广角24mm”, “微距摄影”
- 灯光: “金色小时”, “工作室灯光”, “边缘光”, “柔和散射”
- 质量: “高分辨率”, “详细”, “锐利焦点”, “专业摄影”
-
明确指定风格:
- “逼真”, “油画”, “水彩”, “数字艺术”, “3D渲染”
- “极简”, “详细”, “抽象”, “现实”, “风格化”
- “动漫风格”, “像素艺术”, “矢量艺术”, “炭笔素描”
-
使用示例和参考:
- “以[艺术家/艺术运动]风格”
- “类似于[已知视觉参考]”
- 对于Gemini Pro: 提供实际参考图像
-
负提示 (要避免的):
- DALL-E 不支持直接负提示
- 对于Gemini, 以正面指令措辞: “晴朗天空” 而不是 “没有云”
模型特定技巧
gpt-image-1.5 (推荐):
- 最适合迭代编辑工作流 - 编辑期间保留面部/标志
- 内置推理理解上下文 (例如 “纽约贝塞尔, 1969年8月” → 伍德斯托克)
- 优秀文本渲染, 尤其是密集/小文本
- 最适合信息图表、图表、多面板构图
- 比gpt-image-1快4倍, 使用流进行实时反馈
- 使用
background="transparent"用于资产
gpt-image-1:
- 需要时最大分辨率 (4096x4096)
- 适合一次性高分辨率生成
- 无编辑/修复支持
Imagen 4 系列:
- Google模型中最佳文本渲染
- 使用Fast ($0.02) 用于高批量原型
- 使用Ultra用于最高质量单图像
- 仅文本转图像 (无编辑) - 使用Gemini进行编辑
- 所有图像包含SynthID水印
Gemini Flash (2.5) - Nano Banana:
- 最适合通过聊天进行迭代多轮编辑
- 适合快速生成多个变体
- 用于草稿/概念阶段精炼
Gemini Pro (3) - Nano Banana Pro:
- 用于最终交付物和4K输出
- 最适合带有参考图像的复杂构图 (最多14个)
- "思考"模式生成临时草稿用于构图规划
- 利用Google搜索接地用于当前事件/真实地点
DALL-E 3 (传统):
- 优秀理解自然语言
- 强大创意解释
- 自动提示扩展 (可能偏离确切请求)
DALL-E 2 (传统):
- 更字面解释提示
- 可以生成现有图像的变体
- 预算友好用于简单任务
质量指南
- 以清晰要求开始: 生成前询问澄清问题
- 选择合适模型: 匹配模型能力与需求
- 有思想地迭代: 进行特定更改而不是完全重新生成
- 保存中间版本: 保留有希望的迭代
- 尊重使用政策: 遵循每个平台的内容政策
- 归功于工具: 分享时披露AI生成图像
错误处理
- API密钥缺失: 提示用户设置环境变量
- 无效提示: 建议精炼, 检查内容政策
- 速率限制: 通知用户并建议重试时间
- 生成失败: 尝试更简单提示或不同模型
- 不满意结果: 提供调整提示重新生成
示例
示例1: 标志设计
用户请求: “为名为’Morning Brew’的咖啡店创建标志”
预期行为:
- 询问用户风格偏好 (现代、复古、极简等)
- 询问颜色偏好
- 选择模型 (gpt-image-1.5用于文本渲染, 或 gemini-3-pro-image-preview用于4K)
- 使用提示生成: “咖啡店标志为’Morning Brew’, 极简现代设计, 咖啡杯带蒸汽形成日出光线, 暖棕色和橙色, 清洁专业美学, 矢量风格, 白色背景”
- 使用
background="transparent"用于gpt-image-1.5以便放置 - 保存图像并显示路径
- 提供以不同风格生成变体
示例2: 产品摄影
用户请求: “生成无线耳机的产品照片”
预期行为:
- 选择模型 (imagen-4.0-generate-001用于逼真度, 或 gpt-image-1.5用于编辑)
- 使用提示生成: “无线耳机产品摄影, 白色背景, 专业工作室灯光, 3/4角度视图显示充电盒和耳机, 清洁极简构图, 高分辨率, 锐利焦点, 电子商务质量”
- 如果需要, 生成附加角度
- 保存所有版本
示例3: 插图
用户请求: “创建可爱的机器人贴纸”
预期行为:
- 选择模型 (gpt-image-1.5 带
background="transparent"用于贴纸) - 使用提示生成: “可爱机器人贴纸, 卡哇伊风格, 粗黑色轮廓, 卡通着色, 柔和蓝银色彩, 大友好眼睛, 圆润形状, Q版比例, 白色边框, 透明背景适合贴纸”
- 保存并提供变体
示例4: 图像编辑
用户请求: “将这张照片的背景改为海滩日落”
预期行为:
- 使用
Read工具加载现有图像 - 选择模型 (gpt-image-1.5用于最佳编辑带面部保留, 或 Gemini用于聊天迭代)
- 使用图像 + 提示生成: “将背景改为美丽的海滩日落, 金色小时灯光, 温暖色彩, 可见海洋和棕榈树, 保持前景主体, 无缝构图”
- 保存编辑后图像
示例5: 迭代精炼
用户请求: “生成未来城市” → “添加更多霓虹灯” → “使其下雨”
预期行为:
- 第一生成: “未来城市天际线, 高耸摩天大楼, 先进建筑, 夜间场景, 详细, 电影灯光”
- 使用gpt-image-1.5编辑API或Gemini聊天界面维护上下文
- 第二精炼: “在城市中到处添加鲜艳霓虹灯, 赛博朋克美学, 发光标志和广告牌”
- 第三精炼: “添加雨效果, 湿街道反射霓虹灯, 大气, 情绪化”
- 以描述性名称保存每个版本
限制
- 内容政策: 所有模型都有内容限制 (无暴力、 明确内容、受版权保护角色、未经同意真实人物)
- 文本渲染: 在gpt-image-1.5和Imagen 4中改进很多, 但很长/复杂文本可能仍有问题
- 人的逼真度: 可能无法完美捕捉特定面部特征; gpt-image-1.5在编辑期间最佳保留面部
- 复杂构图: 非常复杂的场景可能需要多次迭代
- 一致性: 跨多个生成难以保持确切一致性; 使用gpt-image-1.5或带参考图像的Gemini Pro进行角色一致性
- 实时事件: 结果可能不反映最近事件 (使用Gemini Pro搜索接地用于当前主题)
- API成本: 注意使用; 参见上方定价表
- 速率限制: API有限速; 可能需要在请求之间等待
- Imagen限制: 仅文本转图像 (无编辑), Ultra模型单图像
- 水印: Google Imagen图像包含SynthID水印
相关技能
python-plotting- 用于数据可视化和图表brainstorming- 用于构思视觉概念scientific-writing- 用于图注和文档python-best-practices- 用于编写清洁API集成代码
附加资源
- Google GenAI SDK迁移指南: https://ai.google.dev/gemini-api/docs/migrate
- Gemini图像生成: https://ai.google.dev/gemini-api/docs/image-generation
- Imagen API文档: https://ai.google.dev/gemini-api/docs/imagen
- OpenAI图像API: https://platform.openai.com/docs/api-reference/images
- gpt-image-1.5提示指南: https://cookbook.openai.com/examples/multimodal/image-gen-1.5-prompting_guide
- 弃用SDK信息: https://github.com/google-gemini/deprecated-generative-ai-python
- 提示工程指南: 参见
references/prompt-engineering.md