AI图像生成与编辑技能Skill generate-image

该技能利用AI模型(如FLUX.2 Pro和Gemini 3 Pro)通过OpenRouter平台生成和编辑高质量图像,适用于各种通用图像需求,如照片、插图、概念艺术等,但不包括技术图表。关键词:AI图像生成,图像编辑,OpenRouter,FLUX,Gemini,AIGC。

AIGC 0 次安装 0 次浏览 更新于 3/22/2026

名称:生成图像 描述:使用AI模型(FLUX,Gemini)生成或编辑图像。用于通用图像生成,包括照片、插图、艺术品、视觉资产、概念艺术,以及任何非技术图表或示意图的图像。对于流程图、电路图、路径图和技术图表,请使用科学示意图技能代替。

生成图像

使用OpenRouter的图像生成模型,包括FLUX.2 Pro和Gemini 3 Pro,生成和编辑高质量图像。

何时使用此技能

使用生成图像技能用于:

  • 照片和逼真图像
  • 艺术插图和艺术品
  • 概念艺术和视觉概念
  • 演示文稿或文档的视觉资产
  • 图像编辑和修改
  • 任何通用图像生成需求

使用科学示意图技能代替用于:

  • 流程图和过程图
  • 电路图和电气示意图
  • 生物路径和信号级联
  • 系统架构图
  • CONSORT图和方法论流程图
  • 任何技术/示意图

快速开始

使用 scripts/generate_image.py 脚本来生成或编辑图像:

# 生成新图像
python scripts/generate_image.py "美丽的山脉日落"

# 编辑现有图像
python scripts/generate_image.py "将天空变为紫色" --input photo.jpg

这会在当前目录生成/编辑图像并保存为 generated_image.png

API密钥设置

关键:脚本需要OpenRouter API密钥。运行前,检查用户是否已配置API密钥:

  1. 在项目目录或父目录中查找 .env 文件
  2. .env 文件中检查 OPENROUTER_API_KEY=<key>
  3. 如果未找到,告知用户需要:
    • 创建 .env 文件,内容为 OPENROUTER_API_KEY=您的API密钥
    • 或设置环境变量:export OPENROUTER_API_KEY=您的API密钥
    • https://openrouter.ai/keys 获取API密钥

脚本会自动检测 .env 文件,并在API密钥缺失时提供清晰的错误消息。

模型选择

默认模型google/gemini-3-pro-image-preview(高质量,推荐)

可用于生成和编辑的模型

  • google/gemini-3-pro-image-preview - 高质量,支持生成 + 编辑
  • black-forest-labs/flux.2-pro - 快速,高质量,支持生成 + 编辑

仅用于生成

  • black-forest-labs/flux.2-flex - 快速且便宜,但质量不如pro版

根据以下选择:

  • 质量:使用gemini-3-pro或flux.2-pro
  • 编辑:使用gemini-3-pro或flux.2-pro(两者都支持图像编辑)
  • 成本:使用flux.2-flex仅用于生成

常见使用模式

基本生成

python scripts/generate_image.py "您的提示"

指定模型

python scripts/generate_image.py "太空中的猫" --model "black-forest-labs/flux.2-pro"

自定义输出路径

python scripts/generate_image.py "抽象艺术" --output artwork.png

编辑现有图像

python scripts/generate_image.py "将背景变为蓝色" --input photo.jpg

使用特定模型编辑

python scripts/generate_image.py "给人添加太阳镜" --input portrait.png --model "black-forest-labs/flux.2-pro"

编辑并自定义输出

python scripts/generate_image.py "从图像中移除文字" --input screenshot.png --output cleaned.png

多个图像

运行脚本多次,使用不同提示或输出路径:

python scripts/generate_image.py "图像1描述" --output image1.png
python scripts/generate_image.py "图像2描述" --output image2.png

脚本参数

  • prompt(必需):生成图像的文本描述,或编辑指令
  • --input-i:编辑的输入图像路径(启用编辑模式)
  • --model-m:OpenRouter模型ID(默认:google/gemini-3-pro-image-preview)
  • --output-o:输出文件路径(默认:generated_image.png)
  • --api-key:OpenRouter API密钥(覆盖.env文件)

示例用例

用于科学文档

# 为论文生成概念插图
python scripts/generate_image.py "免疫治疗剂攻击癌细胞的微观视图,科学插图风格" --output figures/immunotherapy_concept.png

# 为演示文稿创建视觉
python scripts/generate_image.py "DNA双螺旋结构,高亮突变位点,现代科学可视化" --output slides/dna_mutation.png

用于演示文稿和海报

# 标题幻灯片背景
python scripts/generate_image.py "抽象蓝白背景,带微妙分子图案,专业演示风格" --output slides/background.png

# 海报英雄图像
python scripts/generate_image.py "实验室设置,现代设备,逼真,光线良好" --output poster/hero.png

用于通用视觉内容

# 网站或文档图像
python scripts/generate_image.py "专业团队围绕数字白板协作,现代办公室" --output docs/team_collaboration.png

# 营销材料
python scripts/generate_image.py "未来主义AI大脑概念,发光的神经网络" --output marketing/ai_concept.png

错误处理

脚本提供清晰的错误消息,用于:

  • 缺失API密钥(带设置指令)
  • API错误(带状态码)
  • 意外响应格式
  • 缺失依赖(requests库)

如果脚本失败,阅读错误消息并在重试前解决问题。

关键提示要求

重要:输出中无元指令

生成AI图像生成模型的提示时,确保生成的图像不包含任何可见文本显示:

  • 生成它的提示或指令
  • 系统指令或AI相关元数据
  • 任何描述图像创建方式的“元”文本
  • 表示AI生成的水印或标签
  • 布局描述(如“左侧面板”、“右侧面板”、“中心面板”)
  • 字体规格或排版指令
  • 色彩方案描述或调色板信息

图像应仅包含请求的视觉内容。始终在提示中包含此指令:“不要在生成的图像中包含任何显示提示、指令、布局描述、字体/色彩规格或元数据的文本。”

注释

  • 图像以base64编码的数据URL返回,并自动保存为PNG文件
  • 脚本支持OpenRouter不同模型的 imagescontent 响应格式
  • 生成时间因模型而异(通常5-30秒)
  • 对于图像编辑,输入图像编码为base64并发送到模型
  • 支持的输入图像格式:PNG、JPEG、GIF、WebP
  • 查看OpenRouter定价以获取成本信息:https://openrouter.ai/models

图像编辑技巧

  • 具体说明您想要的更改(如“将天空变为日落颜色”vs“编辑天空”)
  • 尽可能引用图像中的特定元素
  • 为了最佳效果,使用清晰详细的编辑指令
  • Gemini 3 Pro和FLUX.2 Pro都通过OpenRouter支持图像编辑

与其他技能的集成

  • 科学示意图:用于技术图表、流程图、电路、路径
  • 生成图像:用于照片、插图、艺术品、视觉概念
  • 科学幻灯片:结合生成图像用于视觉丰富的演示文稿
  • latex海报:使用生成图像用于海报视觉和英雄图像