图像生成Skill image-generation

这个技能用于AI驱动的图像生成和编辑,使用Google Gemini、Google Imagen和OpenAI模型,可以从文本描述生成图像、编辑现有图像、创建标志和贴纸、应用风格转移、生成产品模型等。关键词:图像生成、AI图像、文本转图像、图像编辑、AIGC。

AIGC 0 次安装 0 次浏览 更新于 3/12/2026

名称: 图像生成 描述: | 使用Google Gemini、Google Imagen和OpenAI模型的AI驱动图像生成和编辑。 从文本描述生成图像,编辑现有图像,创建标志/贴纸,应用风格转移,生成产品模型。

在用户请求以下内容时使用此技能:

  • 从文本描述生成图像
  • 图像编辑或修改
  • 标志、贴纸或图形设计资产
  • 产品模型或可视化
  • 风格转移或艺术效果
  • 迭代图像精炼

可用模型:

  • Google Gemini: gemini-2.5-flash-image (Nano Banana), gemini-3-pro-image-preview (Nano Banana Pro)
  • Google Imagen: imagen-4.0-generate-001, imagen-4.0-ultra-generate-001, imagen-4.0-fast-generate-001
  • OpenAI: gpt-image-1.5 (推荐), gpt-image-1, dall-e-3, dall-e-2

灵感来源: https://github.com/EveryInc/every-marketplace/tree/main/plugins/compounding-engineering/skills/gemini-imagegen 允许工具: [“Bash”, “Read”, “Write”, “AskUserQuestion”, “WebFetch”]

图像生成

重要 (2025年12月): google-generativeai 包已弃用。 此技能现在使用 google-genai SDK。如果从旧代码升级,请参见 迁移指南

目的

此技能通过Google的Gemini图像模型和OpenAI的DALL-E模型实现AI驱动的图像生成和编辑。从自然语言描述创建逼真图像、插图、标志、贴纸和产品模型。通过文本指令编辑现有图像,应用风格转移,并通过迭代对话精炼输出。

归属: 此技能灵感来自 Every Marketplacegemini-imagegen 技能。

何时使用

此技能应在用户要求以下内容时调用:

  • 从文本描述生成图像 (“创建一张…的图像”, “生成一张图片…”)
  • 创建标志、图标或贴纸 (“为…设计标志”, “制作贴纸…”)
  • 编辑或修改现有图像 (“将背景更改为…”, “添加…到此图像”)
  • 应用艺术风格或效果 (“使其看起来像…”, “风格化为…”)
  • 创建产品模型或可视化 (“产品照片…”, “模型显示…”)
  • 精炼或迭代图像 (“使其更…”, “调整…”, “再次尝试…”)
  • 以不同风格或构图生成变体

可用模型

Google Gemini 模型 (Nano Banana)

  1. gemini-2.5-flash-image (“Nano Banana”)

    • 分辨率: 1K (1024px), 支持2K
    • 宽高比: 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9
    • 最适合: 速度、高批量操作、快速迭代、图像编辑
    • 使用场景: 快速原型、多个变体、时间敏感请求
    • 成本: 约$0.039每图像 (约$30每百万输出令牌)
  2. gemini-3-pro-image-preview (“Nano Banana Pro”)

    • 分辨率: 1K默认, 支持2K和4K
    • 宽高比: 与Flash相同
    • 最适合: 专业资产、复杂指令、最高质量
    • 使用场景: 最终交付物、详细构图、文本密集型设计
    • 特殊功能:
      • Google搜索接地用于实时数据可视化
      • "思考"模式进行临时构图精炼
      • 最多14个参考图像 (6个对象, 5个人类用于角色一致性)
      • 高级文本渲染

Google Imagen 4 系列 (新)

  1. imagen-4.0-fast-generate-001 (“Imagen 4 Fast”)

    • 分辨率: 标准
    • 最适合: 快速生成、高批量任务
    • 使用场景: 速度优先、预算意识
    • 成本: $0.02每图像
    • 注意: 仅文本输入 (无图像编辑)
  2. imagen-4.0-generate-001 (“Imagen 4”)

    • 分辨率: 高达2K
    • 最适合: 高质量逼真图像、优秀文本渲染
    • 使用场景: 需要专业质量、图像中的文本
    • 特点: 与前代Imagen模型相比,文本渲染有显著改进
  3. imagen-4.0-ultra-generate-001 (“Imagen 4 Ultra”)

    • 分辨率: 高达2K
    • 最适合: 最高质量、详细视觉
    • 使用场景: 质量至关重要时 (一次仅生成一个图像)
    • 限制: 每个请求仅生成一个图像

OpenAI GPT 图像模型

  1. gpt-image-1.5 (推荐 - 2025年12月)

    • 分辨率: 1024x1024, 1536x1024, 1024x1536, 或自动
    • 最适合: 生产质量视觉、精确编辑、角色一致性
    • 使用场景: 专业设计、迭代工作流、文本密集型图像
    • 特点:
      • 比gpt-image-1快4倍,成本低20%
      • 内置推理和世界知识
      • 编辑期间精确标志和面部保留
      • 优秀文本渲染 (清晰字母、密集文本)
      • 复杂结构化视觉 (信息图表、图表、多面板)
      • 流支持
    • 输出格式: png, jpeg, webp (带压缩控制)
    • 透明度: 透明、不透明或自动背景
  2. gpt-image-1 (2025年4月)

    • 分辨率: 高达4096x4096
    • 最适合: 高分辨率图像、创意工作流
    • 使用场景: 需要最大分辨率
    • 成本: 约$0.02 (低), 约$0.07 (中), 约$0.19 (高) 每图像
    • 输出格式: png, jpeg, webp
    • 注意: 每个请求单图像,无修复

传统 OpenAI DALL-E 模型

  1. dall-e-3

    • 分辨率: 1024x1024, 1024x1792, 1792x1024
    • 最适合: 创意解释、艺术渲染
    • 使用场景: 偏好自然艺术风格
    • 注意: 自动提示扩展
  2. dall-e-2

    • 分辨率: 1024x1024, 512x512, 256x256
    • 最适合: 更快生成、最低成本、变体
    • 使用场景: 预算意识、简单图像
    • 独特功能: 可以生成现有图像的变体

模型选择逻辑

询问用户或使用此决策树:

需要图像编辑或迭代精炼?
├─ 是 → gpt-image-1.5 (最佳编辑) 或 gemini-2.5-flash-image (多轮聊天)
└─ 否 → 仅文本转图像
    ├─ 需要最高质量?
    │   ├─ 文本渲染关键 → gpt-image-1.5 或 imagen-4.0-generate-001
    │   ├─ 最大分辨率 (4K) → gemini-3-pro-image-preview
    │   ├─ 超高质量 (单图像) → imagen-4.0-ultra-generate-001
    │   └─ 角色一致性 → gpt-image-1.5 或 gemini-3-pro-image-preview
    ├─ 需要速度/批量?
    │   ├─ 最便宜 → imagen-4.0-fast-generate-001 ($0.02)
    │   └─ 快速 + 编辑 → gemini-2.5-flash-image
    └─ 平衡默认 → gpt-image-1.5 (推荐)

快速参考:

  • 最佳整体: gpt-image-1.5 - 快速、经济、优秀编辑和文本
  • 最佳文本渲染: gpt-image-1.5imagen-4.0-generate-001
  • 最佳4K分辨率: gemini-3-pro-image-preview
  • 每图像最便宜: imagen-4.0-fast-generate-001 ($0.02)
  • 最佳参考图像: gemini-3-pro-image-preview (最多14个参考)
  • 最佳迭代编辑: gpt-image-1.5 (面部/标志保留)

如果用户有特定模型偏好,则使用该模型。

能力

  1. 文本转图像生成: 从详细文本描述创建图像
  2. 图像编辑: 使用文本指令修改现有图像
  3. 风格转移: 应用艺术风格、滤镜和效果
  4. 标志和贴纸设计: 生成具有特定风格的品牌资产
  5. 产品模型: 创建专业产品摄影和演示
  6. 多轮精炼: 通过对话迭代改进图像
  7. 宽高比控制: 以各种格式生成图像 (方形、纵向、横向、宽屏)
  8. 基于参考的生成: 使用现有图像作为构图参考 (Gemini Pro)

指令

步骤1: 理解请求

分析用户请求以确定:

  • 类型: 文本转图像、图像编辑、风格转移、标志/贴纸、模型
  • 主题: 图像中应包含什么
  • 风格: 逼真、插图、艺术、极简等
  • 细节: 颜色、灯光、构图、情绪、特定元素
  • 格式: 宽高比、分辨率要求
  • 紧急程度: 速度与质量权衡

步骤2: 选择模型

基于需求:

  • 高质量 + 复杂性gemini-3-pro-image-preview
  • 速度 + 迭代gemini-2.5-flash-image
  • DALL-E 偏好dall-e-3dall-e-2

如果不清晰,使用 AskUserQuestion 工具澄清模型偏好。

步骤3: 制作有效提示

按照这些模式构建详细提示:

对于逼真图像:

[主题], [相机细节], [灯光], [情绪/氛围], [构图]

示例: "女性特写肖像,85mm镜头,柔和金色小时灯光,
宁静情绪,浅景深,专业摄影"

对于插图/艺术:

[主题], [艺术风格], [调色板], [细节], [情绪]

示例: "卡哇伊猫贴纸,粗黑色轮廓,卡通着色,
柔和色彩,可爱表情,Q版风格"

对于标志:

[概念], [风格], [元素], [颜色], [上下文]

示例: "科技初创公司标志,极简几何设计,抽象网络节点,
蓝银渐变,专业,矢量风格"

对于产品摄影:

[产品], [设置], [灯光], [展示], [上下文]

示例: "无线耳机,白色背景,工作室灯光,3/4角度视图,
清洁极简构图,电子商务产品拍摄"

关键原则:

  • 具体和详细
  • 包括灯光、构图和情绪
  • 明确指定风格 (逼真、插图等)
  • 对于逼真图像,提及相机/镜头 (85mm、广角、微距)
  • 对于图像中的文本,使用Pro模型并指定确切文本

步骤4: 实现API调用

对于Gemini模型:

注意: google.generativeai 包已弃用。使用 google.genai 代替。 参见迁移指南: https://ai.google.dev/gemini-api/docs/migrate

from google import genai
from google.genai import types
from pathlib import Path

# 初始化客户端 (自动使用 GEMINI_API_KEY 或 GOOGLE_API_KEY 环境变量)
client = genai.Client()

# 基本文本转图像
response = client.models.generate_content(
    model="gemini-2.5-flash-image",  # 或 gemini-3-pro-image-preview
    contents=prompt_text,
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
        # 可选配置:
        # image_config=types.ImageConfig(
        #     aspect_ratio="1:1",  # 1:1, 3:4, 4:3, 9:16, 16:9, 21:9
        #     image_size="1K",     # 1K, 2K, 4K (仅Pro)
        # )
    )
)

# 提取并保存图像
for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = part.as_image()
        image.save("output.png")

# 对于图像编辑 (传递现有图像):
from PIL import Image

image = Image.open("input.png")
response = client.models.generate_content(
    model="gemini-2.5-flash-image",
    contents=[image, "将背景改为日落场景"],
    config=types.GenerateContentConfig(response_modalities=["TEXT", "IMAGE"])
)

# 对于多轮精炼 (使用聊天):
chat = client.chats.create(
    model="gemini-2.5-flash-image",
    config=types.GenerateContentConfig(response_modalities=["TEXT", "IMAGE"])
)
response1 = chat.send_message("未来城市天际线")
response2 = chat.send_message("添加更多霓虹灯和飞行汽车")

对于Google Imagen 4模型:

from google import genai
from google.genai import types

# 初始化客户端 (自动使用 GEMINI_API_KEY 或 GOOGLE_API_KEY 环境变量)
client = genai.Client()

# Imagen 4文本转图像 (无编辑支持)
# 也可用: imagen-4.0-fast-generate-001, imagen-4.0-ultra-generate-001
response = client.models.generate_images(
    model="imagen-4.0-generate-001",
    prompt=prompt_text,
    config=types.GenerateImagesConfig(
        number_of_images=4,  # 标准1-4,Ultra仅1
        aspect_ratio="1:1",  # 1:1, 3:4, 4:3, 9:16, 16:9
        person_generation="allow_adult",  # "dont_allow", "allow_adult", "allow_all"
    )
)

# 保存图像
for i, generated_image in enumerate(response.generated_images):
    generated_image.image.save(f"output_{i}.png")

对于OpenAI模型 (推荐 gpt-image-1.5):

from openai import OpenAI
from pathlib import Path
import base64

client = OpenAI(api_key="OPENAI_API_KEY")

# gpt-image-1.5 生成 (推荐)
response = client.images.generate(
    model="gpt-image-1.5",
    prompt=prompt_text,
    size="1024x1024",  # 或 "1536x1024", "1024x1536", "auto"
    quality="high",    # "low", "medium", "high"
    n=1,               # 1-10 图像
    output_format="png",  # "png", "jpeg", "webp"
    background="auto",    # "transparent", "opaque", "auto"
    moderation="auto",    # "auto" 或 "low" 限制较少
)

# 响应返回base64数据
image_data = base64.b64decode(response.data[0].b64_json)
Path("output.png").write_bytes(image_data)

# gpt-image-1 生成 (最大4K分辨率)
response = client.images.generate(
    model="gpt-image-1",
    prompt=prompt_text,
    size="1024x1024",
    quality="high",
    n=1,
)

# 使用 gpt-image-1.5 编辑图像
response = client.images.edit(
    model="gpt-image-1.5",
    image=open("input.png", "rb"),
    prompt="将背景改为海滩日落",
    size="1024x1024",
)

# 传统 DALL-E 3 生成
response = client.images.generate(
    model="dall-e-3",
    prompt=prompt_text,
    size="1024x1024",  # 或 "1024x1792", "1792x1024"
    quality="standard",  # 或 "hd"
    n=1,
)
image_url = response.data[0].url

# 下载基于URL的响应
import requests
image_data = requests.get(image_url).content
Path("output.png").write_bytes(image_data)

实现方法:

  • 使用 Bash 工具执行带有API调用的Python脚本
  • 检查环境变量中的API密钥
  • 优雅处理错误 (API限制、无效提示等)
  • 保存图像并带描述性文件名
  • 向用户报告图像位置

步骤5: 处理输出

  1. 保存生成的图像 到适当位置
  2. 验证输出 是否符合请求
  3. 向用户展示 保存的文件路径
  4. 提供精炼 如果结果不完美
  5. 解释使用的提示 以便用户理解生成

步骤6: 如果需要则迭代

如果用户想要更改:

  • 对于Gemini: 使用聊天界面维护上下文
  • 对于gpt-image-1.5: 使用编辑API进行精确面部/标志保留
  • 对于Imagen/DALL-E: 使用更新提示生成新图像
  • 保留先前版本进行比较
  • 基于当前结果建议具体调整

要求

API密钥:

  • Google (Gemini/Imagen): 设置 GOOGLE_API_KEYGEMINI_API_KEY 环境变量
  • OpenAI: 设置 OPENAI_API_KEY 环境变量

Python包:

pip install google-genai openai pillow requests

注意: google-generativeai 包已弃用且不再接收更新。 使用 google-genai 代替。迁移指南: https://ai.google.dev/gemini-api/docs/migrate

系统:

  • Python 3.8+
  • 互联网连接用于API访问
  • 写入权限用于保存图像

近似成本 (每图像):

模型 低质量 高质量
imagen-4.0-fast $0.02 $0.02
imagen-4.0 - 约$0.04
imagen-4.0-ultra - 约$0.08
gemini-2.5-flash-image 约$0.039 约$0.039
gpt-image-1.5 约$0.016 约$0.15
gpt-image-1 约$0.02 约$0.19
dall-e-3 约$0.04 约$0.08
dall-e-2 约$0.02 约$0.02

最佳实践

提示工程

  1. 具体: 模糊提示产生不一致结果

    • 差: “一个漂亮的风景”
    • 好: “日出时的山谷,湖面薄雾,松树,温暖金色灯光,宁静氛围”
  2. 为逼真度包括技术细节:

    • 相机: “用85mm镜头拍摄”, “广角24mm”, “微距摄影”
    • 灯光: “金色小时”, “工作室灯光”, “边缘光”, “柔和散射”
    • 质量: “高分辨率”, “详细”, “锐利焦点”, “专业摄影”
  3. 明确指定风格:

    • “逼真”, “油画”, “水彩”, “数字艺术”, “3D渲染”
    • “极简”, “详细”, “抽象”, “现实”, “风格化”
    • “动漫风格”, “像素艺术”, “矢量艺术”, “炭笔素描”
  4. 使用示例和参考:

    • “以[艺术家/艺术运动]风格”
    • “类似于[已知视觉参考]”
    • 对于Gemini Pro: 提供实际参考图像
  5. 负提示 (要避免的):

    • DALL-E 不支持直接负提示
    • 对于Gemini, 以正面指令措辞: “晴朗天空” 而不是 “没有云”

模型特定技巧

gpt-image-1.5 (推荐):

  • 最适合迭代编辑工作流 - 编辑期间保留面部/标志
  • 内置推理理解上下文 (例如 “纽约贝塞尔, 1969年8月” → 伍德斯托克)
  • 优秀文本渲染, 尤其是密集/小文本
  • 最适合信息图表、图表、多面板构图
  • 比gpt-image-1快4倍, 使用流进行实时反馈
  • 使用 background="transparent" 用于资产

gpt-image-1:

  • 需要时最大分辨率 (4096x4096)
  • 适合一次性高分辨率生成
  • 无编辑/修复支持

Imagen 4 系列:

  • Google模型中最佳文本渲染
  • 使用Fast ($0.02) 用于高批量原型
  • 使用Ultra用于最高质量单图像
  • 仅文本转图像 (无编辑) - 使用Gemini进行编辑
  • 所有图像包含SynthID水印

Gemini Flash (2.5) - Nano Banana:

  • 最适合通过聊天进行迭代多轮编辑
  • 适合快速生成多个变体
  • 用于草稿/概念阶段精炼

Gemini Pro (3) - Nano Banana Pro:

  • 用于最终交付物和4K输出
  • 最适合带有参考图像的复杂构图 (最多14个)
  • "思考"模式生成临时草稿用于构图规划
  • 利用Google搜索接地用于当前事件/真实地点

DALL-E 3 (传统):

  • 优秀理解自然语言
  • 强大创意解释
  • 自动提示扩展 (可能偏离确切请求)

DALL-E 2 (传统):

  • 更字面解释提示
  • 可以生成现有图像的变体
  • 预算友好用于简单任务

质量指南

  1. 以清晰要求开始: 生成前询问澄清问题
  2. 选择合适模型: 匹配模型能力与需求
  3. 有思想地迭代: 进行特定更改而不是完全重新生成
  4. 保存中间版本: 保留有希望的迭代
  5. 尊重使用政策: 遵循每个平台的内容政策
  6. 归功于工具: 分享时披露AI生成图像

错误处理

  • API密钥缺失: 提示用户设置环境变量
  • 无效提示: 建议精炼, 检查内容政策
  • 速率限制: 通知用户并建议重试时间
  • 生成失败: 尝试更简单提示或不同模型
  • 不满意结果: 提供调整提示重新生成

示例

示例1: 标志设计

用户请求: “为名为’Morning Brew’的咖啡店创建标志”

预期行为:

  1. 询问用户风格偏好 (现代、复古、极简等)
  2. 询问颜色偏好
  3. 选择模型 (gpt-image-1.5用于文本渲染, 或 gemini-3-pro-image-preview用于4K)
  4. 使用提示生成: “咖啡店标志为’Morning Brew’, 极简现代设计, 咖啡杯带蒸汽形成日出光线, 暖棕色和橙色, 清洁专业美学, 矢量风格, 白色背景”
  5. 使用 background="transparent" 用于gpt-image-1.5以便放置
  6. 保存图像并显示路径
  7. 提供以不同风格生成变体

示例2: 产品摄影

用户请求: “生成无线耳机的产品照片”

预期行为:

  1. 选择模型 (imagen-4.0-generate-001用于逼真度, 或 gpt-image-1.5用于编辑)
  2. 使用提示生成: “无线耳机产品摄影, 白色背景, 专业工作室灯光, 3/4角度视图显示充电盒和耳机, 清洁极简构图, 高分辨率, 锐利焦点, 电子商务质量”
  3. 如果需要, 生成附加角度
  4. 保存所有版本

示例3: 插图

用户请求: “创建可爱的机器人贴纸”

预期行为:

  1. 选择模型 (gpt-image-1.5 带 background="transparent" 用于贴纸)
  2. 使用提示生成: “可爱机器人贴纸, 卡哇伊风格, 粗黑色轮廓, 卡通着色, 柔和蓝银色彩, 大友好眼睛, 圆润形状, Q版比例, 白色边框, 透明背景适合贴纸”
  3. 保存并提供变体

示例4: 图像编辑

用户请求: “将这张照片的背景改为海滩日落”

预期行为:

  1. 使用 Read 工具加载现有图像
  2. 选择模型 (gpt-image-1.5用于最佳编辑带面部保留, 或 Gemini用于聊天迭代)
  3. 使用图像 + 提示生成: “将背景改为美丽的海滩日落, 金色小时灯光, 温暖色彩, 可见海洋和棕榈树, 保持前景主体, 无缝构图”
  4. 保存编辑后图像

示例5: 迭代精炼

用户请求: “生成未来城市” → “添加更多霓虹灯” → “使其下雨”

预期行为:

  1. 第一生成: “未来城市天际线, 高耸摩天大楼, 先进建筑, 夜间场景, 详细, 电影灯光”
  2. 使用gpt-image-1.5编辑API或Gemini聊天界面维护上下文
  3. 第二精炼: “在城市中到处添加鲜艳霓虹灯, 赛博朋克美学, 发光标志和广告牌”
  4. 第三精炼: “添加雨效果, 湿街道反射霓虹灯, 大气, 情绪化”
  5. 以描述性名称保存每个版本

限制

  1. 内容政策: 所有模型都有内容限制 (无暴力、 明确内容、受版权保护角色、未经同意真实人物)
  2. 文本渲染: 在gpt-image-1.5和Imagen 4中改进很多, 但很长/复杂文本可能仍有问题
  3. 人的逼真度: 可能无法完美捕捉特定面部特征; gpt-image-1.5在编辑期间最佳保留面部
  4. 复杂构图: 非常复杂的场景可能需要多次迭代
  5. 一致性: 跨多个生成难以保持确切一致性; 使用gpt-image-1.5或带参考图像的Gemini Pro进行角色一致性
  6. 实时事件: 结果可能不反映最近事件 (使用Gemini Pro搜索接地用于当前主题)
  7. API成本: 注意使用; 参见上方定价表
  8. 速率限制: API有限速; 可能需要在请求之间等待
  9. Imagen限制: 仅文本转图像 (无编辑), Ultra模型单图像
  10. 水印: Google Imagen图像包含SynthID水印

相关技能

  • python-plotting - 用于数据可视化和图表
  • brainstorming - 用于构思视觉概念
  • scientific-writing - 用于图注和文档
  • python-best-practices - 用于编写清洁API集成代码

附加资源