名称: 图像生成描述: | 使用Google Gemini、Google Imagen和OpenAI模型的AI驱动图像生成和编辑。从文本描述生成图像，编辑现有图像，创建标志/贴纸，应用风格转移，生成产品模型。

在用户请求以下内容时使用此技能：

从文本描述生成图像
图像编辑或修改
标志、贴纸或图形设计资产
产品模型或可视化
风格转移或艺术效果
迭代图像精炼

可用模型：

Google Gemini: gemini-2.5-flash-image (Nano Banana), gemini-3-pro-image-preview (Nano Banana Pro)
Google Imagen: imagen-4.0-generate-001, imagen-4.0-ultra-generate-001, imagen-4.0-fast-generate-001
OpenAI: gpt-image-1.5 (推荐), gpt-image-1, dall-e-3, dall-e-2

灵感来源: https://github.com/EveryInc/every-marketplace/tree/main/plugins/compounding-engineering/skills/gemini-imagegen 允许工具: [“Bash”, “Read”, “Write”, “AskUserQuestion”, “WebFetch”]

图像生成

重要 (2025年12月): google-generativeai 包已弃用。此技能现在使用 google-genai SDK。如果从旧代码升级，请参见迁移指南。

目的

此技能通过Google的Gemini图像模型和OpenAI的DALL-E模型实现AI驱动的图像生成和编辑。从自然语言描述创建逼真图像、插图、标志、贴纸和产品模型。通过文本指令编辑现有图像，应用风格转移，并通过迭代对话精炼输出。

归属: 此技能灵感来自 Every Marketplace 的 gemini-imagegen 技能。

何时使用

此技能应在用户要求以下内容时调用：

从文本描述生成图像 (“创建一张…的图像”, “生成一张图片…”)
创建标志、图标或贴纸 (“为…设计标志”, “制作贴纸…”)
编辑或修改现有图像 (“将背景更改为…”, “添加…到此图像”)
应用艺术风格或效果 (“使其看起来像…”, “风格化为…”)
创建产品模型或可视化 (“产品照片…”, “模型显示…”)
精炼或迭代图像 (“使其更…”, “调整…”, “再次尝试…”)
以不同风格或构图生成变体

可用模型

Google Gemini 模型 (Nano Banana)

gemini-2.5-flash-image (“Nano Banana”)
- 分辨率: 1K (1024px), 支持2K
- 宽高比: 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9
- 最适合: 速度、高批量操作、快速迭代、图像编辑
- 使用场景: 快速原型、多个变体、时间敏感请求
- 成本: 约$0.039每图像 (约$30每百万输出令牌)
gemini-3-pro-image-preview (“Nano Banana Pro”)
- 分辨率: 1K默认, 支持2K和4K
- 宽高比: 与Flash相同
- 最适合: 专业资产、复杂指令、最高质量
- 使用场景: 最终交付物、详细构图、文本密集型设计
- 特殊功能:
  - Google搜索接地用于实时数据可视化
  - "思考"模式进行临时构图精炼
  - 最多14个参考图像 (6个对象, 5个人类用于角色一致性)
  - 高级文本渲染

Google Imagen 4 系列 (新)

imagen-4.0-fast-generate-001 (“Imagen 4 Fast”)
- 分辨率: 标准
- 最适合: 快速生成、高批量任务
- 使用场景: 速度优先、预算意识
- 成本: $0.02每图像
- 注意: 仅文本输入 (无图像编辑)
imagen-4.0-generate-001 (“Imagen 4”)
- 分辨率: 高达2K
- 最适合: 高质量逼真图像、优秀文本渲染
- 使用场景: 需要专业质量、图像中的文本
- 特点: 与前代Imagen模型相比，文本渲染有显著改进
imagen-4.0-ultra-generate-001 (“Imagen 4 Ultra”)
- 分辨率: 高达2K
- 最适合: 最高质量、详细视觉
- 使用场景: 质量至关重要时 (一次仅生成一个图像)
- 限制: 每个请求仅生成一个图像

OpenAI GPT 图像模型

gpt-image-1.5 (推荐 - 2025年12月)
- 分辨率: 1024x1024, 1536x1024, 1024x1536, 或自动
- 最适合: 生产质量视觉、精确编辑、角色一致性
- 使用场景: 专业设计、迭代工作流、文本密集型图像
- 特点:
  - 比gpt-image-1快4倍，成本低20%
  - 内置推理和世界知识
  - 编辑期间精确标志和面部保留
  - 优秀文本渲染 (清晰字母、密集文本)
  - 复杂结构化视觉 (信息图表、图表、多面板)
  - 流支持
- 输出格式: png, jpeg, webp (带压缩控制)
- 透明度: 透明、不透明或自动背景
gpt-image-1 (2025年4月)
- 分辨率: 高达4096x4096
- 最适合: 高分辨率图像、创意工作流
- 使用场景: 需要最大分辨率
- 成本: 约$0.02 (低), 约$0.07 (中), 约$0.19 (高) 每图像
- 输出格式: png, jpeg, webp
- 注意: 每个请求单图像，无修复

传统 OpenAI DALL-E 模型

dall-e-3
- 分辨率: 1024x1024, 1024x1792, 1792x1024
- 最适合: 创意解释、艺术渲染
- 使用场景: 偏好自然艺术风格
- 注意: 自动提示扩展
dall-e-2
- 分辨率: 1024x1024, 512x512, 256x256
- 最适合: 更快生成、最低成本、变体
- 使用场景: 预算意识、简单图像
- 独特功能: 可以生成现有图像的变体

模型选择逻辑

询问用户或使用此决策树：

需要图像编辑或迭代精炼？
├─ 是 → gpt-image-1.5 (最佳编辑) 或 gemini-2.5-flash-image (多轮聊天)
└─ 否 → 仅文本转图像
    ├─ 需要最高质量？
    │   ├─ 文本渲染关键 → gpt-image-1.5 或 imagen-4.0-generate-001
    │   ├─ 最大分辨率 (4K) → gemini-3-pro-image-preview
    │   ├─ 超高质量 (单图像) → imagen-4.0-ultra-generate-001
    │   └─ 角色一致性 → gpt-image-1.5 或 gemini-3-pro-image-preview
    ├─ 需要速度/批量？
    │   ├─ 最便宜 → imagen-4.0-fast-generate-001 ($0.02)
    │   └─ 快速 + 编辑 → gemini-2.5-flash-image
    └─ 平衡默认 → gpt-image-1.5 (推荐)

快速参考:

最佳整体: gpt-image-1.5 - 快速、经济、优秀编辑和文本
最佳文本渲染: gpt-image-1.5 或 imagen-4.0-generate-001
最佳4K分辨率: gemini-3-pro-image-preview
每图像最便宜: imagen-4.0-fast-generate-001 ($0.02)
最佳参考图像: gemini-3-pro-image-preview (最多14个参考)
最佳迭代编辑: gpt-image-1.5 (面部/标志保留)

如果用户有特定模型偏好，则使用该模型。

能力

文本转图像生成: 从详细文本描述创建图像
图像编辑: 使用文本指令修改现有图像
风格转移: 应用艺术风格、滤镜和效果
标志和贴纸设计: 生成具有特定风格的品牌资产
产品模型: 创建专业产品摄影和演示
多轮精炼: 通过对话迭代改进图像
宽高比控制: 以各种格式生成图像 (方形、纵向、横向、宽屏)
基于参考的生成: 使用现有图像作为构图参考 (Gemini Pro)

指令

步骤1: 理解请求

分析用户请求以确定：

类型: 文本转图像、图像编辑、风格转移、标志/贴纸、模型
主题: 图像中应包含什么
风格: 逼真、插图、艺术、极简等
细节: 颜色、灯光、构图、情绪、特定元素
格式: 宽高比、分辨率要求
紧急程度: 速度与质量权衡

步骤2: 选择模型

基于需求：

高质量 + 复杂性 → gemini-3-pro-image-preview
速度 + 迭代 → gemini-2.5-flash-image
DALL-E 偏好 → dall-e-3 或 dall-e-2

如果不清晰，使用 AskUserQuestion 工具澄清模型偏好。

步骤3: 制作有效提示

按照这些模式构建详细提示：

对于逼真图像:

[主题], [相机细节], [灯光], [情绪/氛围], [构图]

示例: "女性特写肖像，85mm镜头，柔和金色小时灯光，
宁静情绪，浅景深，专业摄影"

对于插图/艺术:

[主题], [艺术风格], [调色板], [细节], [情绪]

示例: "卡哇伊猫贴纸，粗黑色轮廓，卡通着色，
柔和色彩，可爱表情，Q版风格"

对于标志:

[概念], [风格], [元素], [颜色], [上下文]

示例: "科技初创公司标志，极简几何设计，抽象网络节点，
蓝银渐变，专业，矢量风格"

对于产品摄影:

[产品], [设置], [灯光], [展示], [上下文]

示例: "无线耳机，白色背景，工作室灯光，3/4角度视图，
清洁极简构图，电子商务产品拍摄"

关键原则:

具体和详细
包括灯光、构图和情绪
明确指定风格 (逼真、插图等)
对于逼真图像，提及相机/镜头 (85mm、广角、微距)
对于图像中的文本，使用Pro模型并指定确切文本

步骤4: 实现API调用

对于Gemini模型:

注意: google.generativeai 包已弃用。使用 google.genai 代替。参见迁移指南: https://ai.google.dev/gemini-api/docs/migrate

from google import genai
from google.genai import types
from pathlib import Path

# 初始化客户端 (自动使用 GEMINI_API_KEY 或 GOOGLE_API_KEY 环境变量)
client = genai.Client()

# 基本文本转图像
response = client.models.generate_content(
    model="gemini-2.5-flash-image",  # 或 gemini-3-pro-image-preview
    contents=prompt_text,
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
        # 可选配置:
        # image_config=types.ImageConfig(
        #     aspect_ratio="1:1",  # 1:1, 3:4, 4:3, 9:16, 16:9, 21:9
        #     image_size="1K",     # 1K, 2K, 4K (仅Pro)
        # )
    )
)

# 提取并保存图像
for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = part.as_image()
        image.save("output.png")

# 对于图像编辑 (传递现有图像):
from PIL import Image

image = Image.open("input.png")
response = client.models.generate_content(
    model="gemini-2.5-flash-image",
    contents=[image, "将背景改为日落场景"],
    config=types.GenerateContentConfig(response_modalities=["TEXT", "IMAGE"])
)

# 对于多轮精炼 (使用聊天):
chat = client.chats.create(
    model="gemini-2.5-flash-image",
    config=types.GenerateContentConfig(response_modalities=["TEXT", "IMAGE"])
)
response1 = chat.send_message("未来城市天际线")
response2 = chat.send_message("添加更多霓虹灯和飞行汽车")

对于Google Imagen 4模型:

from google import genai
from google.genai import types

# 初始化客户端 (自动使用 GEMINI_API_KEY 或 GOOGLE_API_KEY 环境变量)
client = genai.Client()

# Imagen 4文本转图像 (无编辑支持)
# 也可用: imagen-4.0-fast-generate-001, imagen-4.0-ultra-generate-001
response = client.models.generate_images(
    model="imagen-4.0-generate-001",
    prompt=prompt_text,
    config=types.GenerateImagesConfig(
        number_of_images=4,  # 标准1-4，Ultra仅1
        aspect_ratio="1:1",  # 1:1, 3:4, 4:3, 9:16, 16:9
        person_generation="allow_adult",  # "dont_allow", "allow_adult", "allow_all"
    )
)

# 保存图像
for i, generated_image in enumerate(response.generated_images):
    generated_image.image.save(f"output_{i}.png")

对于OpenAI模型 (推荐 gpt-image-1.5):

from openai import OpenAI
from pathlib import Path
import base64

client = OpenAI(api_key="OPENAI_API_KEY")

# gpt-image-1.5 生成 (推荐)
response = client.images.generate(
    model="gpt-image-1.5",
    prompt=prompt_text,
    size="1024x1024",  # 或 "1536x1024", "1024x1536", "auto"
    quality="high",    # "low", "medium", "high"
    n=1,               # 1-10 图像
    output_format="png",  # "png", "jpeg", "webp"
    background="auto",    # "transparent", "opaque", "auto"
    moderation="auto",    # "auto" 或 "low" 限制较少
)

# 响应返回base64数据
image_data = base64.b64decode(response.data[0].b64_json)
Path("output.png").write_bytes(image_data)

# gpt-image-1 生成 (最大4K分辨率)
response = client.images.generate(
    model="gpt-image-1",
    prompt=prompt_text,
    size="1024x1024",
    quality="high",
    n=1,
)

# 使用 gpt-image-1.5 编辑图像
response = client.images.edit(
    model="gpt-image-1.5",
    image=open("input.png", "rb"),
    prompt="将背景改为海滩日落",
    size="1024x1024",
)

# 传统 DALL-E 3 生成
response = client.images.generate(
    model="dall-e-3",
    prompt=prompt_text,
    size="1024x1024",  # 或 "1024x1792", "1792x1024"
    quality="standard",  # 或 "hd"
    n=1,
)
image_url = response.data[0].url

# 下载基于URL的响应
import requests
image_data = requests.get(image_url).content
Path("output.png").write_bytes(image_data)

实现方法:

使用 Bash 工具执行带有API调用的Python脚本
检查环境变量中的API密钥
优雅处理错误 (API限制、无效提示等)
保存图像并带描述性文件名
向用户报告图像位置

步骤5: 处理输出

保存生成的图像 到适当位置
验证输出 是否符合请求
向用户展示 保存的文件路径
提供精炼 如果结果不完美
解释使用的提示 以便用户理解生成

步骤6: 如果需要则迭代

如果用户想要更改：

对于Gemini: 使用聊天界面维护上下文
对于gpt-image-1.5: 使用编辑API进行精确面部/标志保留
对于Imagen/DALL-E: 使用更新提示生成新图像
保留先前版本进行比较
基于当前结果建议具体调整

要求

API密钥:

Google (Gemini/Imagen): 设置 GOOGLE_API_KEY 或 GEMINI_API_KEY 环境变量
OpenAI: 设置 OPENAI_API_KEY 环境变量

Python包:

pip install google-genai openai pillow requests

注意: google-generativeai 包已弃用且不再接收更新。使用 google-genai 代替。迁移指南: https://ai.google.dev/gemini-api/docs/migrate

系统:

Python 3.8+
互联网连接用于API访问
写入权限用于保存图像

近似成本 (每图像):

模型	低质量	高质量
imagen-4.0-fast	$0.02	$0.02
imagen-4.0	-	约$0.04
imagen-4.0-ultra	-	约$0.08
gemini-2.5-flash-image	约$0.039	约$0.039
gpt-image-1.5	约$0.016	约$0.15
gpt-image-1	约$0.02	约$0.19
dall-e-3	约$0.04	约$0.08
dall-e-2	约$0.02	约$0.02

最佳实践

提示工程

具体: 模糊提示产生不一致结果
- 差: “一个漂亮的风景”
- 好: “日出时的山谷，湖面薄雾，松树，温暖金色灯光，宁静氛围”
为逼真度包括技术细节:
- 相机: “用85mm镜头拍摄”, “广角24mm”, “微距摄影”
- 灯光: “金色小时”, “工作室灯光”, “边缘光”, “柔和散射”
- 质量: “高分辨率”, “详细”, “锐利焦点”, “专业摄影”
明确指定风格:
- “逼真”, “油画”, “水彩”, “数字艺术”, “3D渲染”
- “极简”, “详细”, “抽象”, “现实”, “风格化”
- “动漫风格”, “像素艺术”, “矢量艺术”, “炭笔素描”
使用示例和参考:
- “以[艺术家/艺术运动]风格”
- “类似于[已知视觉参考]”
- 对于Gemini Pro: 提供实际参考图像
负提示 (要避免的):
- DALL-E 不支持直接负提示
- 对于Gemini, 以正面指令措辞: “晴朗天空” 而不是 “没有云”

模型特定技巧

gpt-image-1.5 (推荐):

最适合迭代编辑工作流 - 编辑期间保留面部/标志
内置推理理解上下文 (例如 “纽约贝塞尔, 1969年8月” → 伍德斯托克)
优秀文本渲染, 尤其是密集/小文本
最适合信息图表、图表、多面板构图
比gpt-image-1快4倍, 使用流进行实时反馈
使用 background="transparent" 用于资产

gpt-image-1:

需要时最大分辨率 (4096x4096)
适合一次性高分辨率生成
无编辑/修复支持

Imagen 4 系列:

Google模型中最佳文本渲染
使用Fast ($0.02) 用于高批量原型
使用Ultra用于最高质量单图像
仅文本转图像 (无编辑) - 使用Gemini进行编辑
所有图像包含SynthID水印

Gemini Flash (2.5) - Nano Banana:

最适合通过聊天进行迭代多轮编辑
适合快速生成多个变体
用于草稿/概念阶段精炼

Gemini Pro (3) - Nano Banana Pro:

用于最终交付物和4K输出
最适合带有参考图像的复杂构图 (最多14个)
"思考"模式生成临时草稿用于构图规划
利用Google搜索接地用于当前事件/真实地点

DALL-E 3 (传统):

优秀理解自然语言
强大创意解释
自动提示扩展 (可能偏离确切请求)

DALL-E 2 (传统):

更字面解释提示
可以生成现有图像的变体
预算友好用于简单任务

质量指南

以清晰要求开始: 生成前询问澄清问题
选择合适模型: 匹配模型能力与需求
有思想地迭代: 进行特定更改而不是完全重新生成
保存中间版本: 保留有希望的迭代
尊重使用政策: 遵循每个平台的内容政策
归功于工具: 分享时披露AI生成图像

错误处理

API密钥缺失: 提示用户设置环境变量
无效提示: 建议精炼, 检查内容政策
速率限制: 通知用户并建议重试时间
生成失败: 尝试更简单提示或不同模型
不满意结果: 提供调整提示重新生成

示例

示例1: 标志设计

用户请求: “为名为’Morning Brew’的咖啡店创建标志”

预期行为:

询问用户风格偏好 (现代、复古、极简等)
询问颜色偏好
选择模型 (gpt-image-1.5用于文本渲染, 或 gemini-3-pro-image-preview用于4K)
使用提示生成: “咖啡店标志为’Morning Brew’, 极简现代设计, 咖啡杯带蒸汽形成日出光线, 暖棕色和橙色, 清洁专业美学, 矢量风格, 白色背景”
使用 background="transparent" 用于gpt-image-1.5以便放置
保存图像并显示路径
提供以不同风格生成变体

示例2: 产品摄影

用户请求: “生成无线耳机的产品照片”

预期行为:

选择模型 (imagen-4.0-generate-001用于逼真度, 或 gpt-image-1.5用于编辑)
使用提示生成: “无线耳机产品摄影, 白色背景, 专业工作室灯光, 3/4角度视图显示充电盒和耳机, 清洁极简构图, 高分辨率, 锐利焦点, 电子商务质量”
如果需要, 生成附加角度
保存所有版本

示例3: 插图

用户请求: “创建可爱的机器人贴纸”

预期行为:

选择模型 (gpt-image-1.5 带 background="transparent" 用于贴纸)
使用提示生成: “可爱机器人贴纸, 卡哇伊风格, 粗黑色轮廓, 卡通着色, 柔和蓝银色彩, 大友好眼睛, 圆润形状, Q版比例, 白色边框, 透明背景适合贴纸”
保存并提供变体

示例4: 图像编辑

用户请求: “将这张照片的背景改为海滩日落”

预期行为:

使用 Read 工具加载现有图像
选择模型 (gpt-image-1.5用于最佳编辑带面部保留, 或 Gemini用于聊天迭代)
使用图像 + 提示生成: “将背景改为美丽的海滩日落, 金色小时灯光, 温暖色彩, 可见海洋和棕榈树, 保持前景主体, 无缝构图”
保存编辑后图像

示例5: 迭代精炼

用户请求: “生成未来城市” → “添加更多霓虹灯” → “使其下雨”

预期行为:

第一生成: “未来城市天际线, 高耸摩天大楼, 先进建筑, 夜间场景, 详细, 电影灯光”
使用gpt-image-1.5编辑API或Gemini聊天界面维护上下文
第二精炼: “在城市中到处添加鲜艳霓虹灯, 赛博朋克美学, 发光标志和广告牌”
第三精炼: “添加雨效果, 湿街道反射霓虹灯, 大气, 情绪化”
以描述性名称保存每个版本

限制

内容政策: 所有模型都有内容限制 (无暴力、明确内容、受版权保护角色、未经同意真实人物)
文本渲染: 在gpt-image-1.5和Imagen 4中改进很多, 但很长/复杂文本可能仍有问题
人的逼真度: 可能无法完美捕捉特定面部特征; gpt-image-1.5在编辑期间最佳保留面部
复杂构图: 非常复杂的场景可能需要多次迭代
一致性: 跨多个生成难以保持确切一致性; 使用gpt-image-1.5或带参考图像的Gemini Pro进行角色一致性
实时事件: 结果可能不反映最近事件 (使用Gemini Pro搜索接地用于当前主题)
API成本: 注意使用; 参见上方定价表
速率限制: API有限速; 可能需要在请求之间等待
Imagen限制: 仅文本转图像 (无编辑), Ultra模型单图像
水印: Google Imagen图像包含SynthID水印

附加资源

Google GenAI SDK迁移指南: https://ai.google.dev/gemini-api/docs/migrate
Gemini图像生成: https://ai.google.dev/gemini-api/docs/image-generation
Imagen API文档: https://ai.google.dev/gemini-api/docs/imagen
OpenAI图像API: https://platform.openai.com/docs/api-reference/images
gpt-image-1.5提示指南: https://cookbook.openai.com/examples/multimodal/image-gen-1.5-prompting_guide
弃用SDK信息: https://github.com/google-gemini/deprecated-generative-ai-python
提示工程指南: 参见 references/prompt-engineering.md

图像生成Skill image-generation

灵感来源: https://github.com/EveryInc/every-marketplace/tree/main/plugins/compounding-engineering/skills/gemini-imagegen 允许工具: [“Bash”, “Read”, “Write”, “AskUserQuestion”, “WebFetch”]

图像生成

目的

何时使用

可用模型

Google Gemini 模型 (Nano Banana)

Google Imagen 4 系列 (新)

OpenAI GPT 图像模型

传统 OpenAI DALL-E 模型

模型选择逻辑

能力

指令

步骤1: 理解请求

步骤2: 选择模型

步骤3: 制作有效提示

步骤4: 实现API调用

对于Gemini模型:

对于Google Imagen 4模型:

对于OpenAI模型 (推荐 gpt-image-1.5):

步骤5: 处理输出

步骤6: 如果需要则迭代

要求

最佳实践

提示工程

模型特定技巧

质量指南

错误处理

示例

示例1: 标志设计

示例2: 产品摄影

示例3: 插图

示例4: 图像编辑

示例5: 迭代精炼

限制

相关技能

附加资源