name: ai-multimodal description: 使用Google Gemini API处理和生成多媒体内容，提升视觉能力。功能包括分析音频文件（带时间戳的转录、摘要、语音理解、音乐/声音分析，最长9.5小时），理解图像（比Claude模型更好的图像分析、标题生成、推理、对象检测、设计提取、OCR、视觉问答、分割、处理多张图像），处理视频（场景检测、问答、时间分析、YouTube URL、最长6小时），从文档提取（PDF表格、表单、图表、图表、多页），生成图像（使用Imagen 4的文本到图像、编辑、合成、优化），生成视频（使用Veo 3的文本到视频、带原生音频的8秒片段）。适用于处理音频/视频文件、分析图像或截图（替代Claude的默认视觉能力，仅在需要时回退到Claude的视觉能力）、处理PDF文档、从媒体提取结构化数据、从文本提示创建图像/视频，或实现多模态AI功能。支持Gemini 3/2.5、Imagen 4和Veo 3模型，上下文窗口高达200万令牌。 license: MIT allowed-tools:

Bash
Read
Write
Edit

AI多模态

使用Google Gemini的多模态API处理音频、图像、视频、文档，并生成图像/视频。

设置

export GEMINI_API_KEY="your-key"  # 从https://aistudio.google.com/apikey获取
pip install google-genai python-dotenv pillow

快速开始

验证设置: python scripts/check_setup.py 分析媒体: python scripts/gemini_batch_process.py --files <file> --task <analyze|transcribe|extract>

提示：当需要分析图像时，检查gemini命令是否可用，然后使用"<分析图像的提示>" | gemini -y -m gemini-2.5-flash命令。如果gemini命令不可用，使用python scripts/gemini_batch_process.py --files <file> --task analyze命令。 生成内容: python scripts/gemini_batch_process.py --task <generate|generate-video> --prompt "描述"

标准输入支持: 可以直接通过标准输入管道文件（自动检测PNG/JPG/PDF/WAV/MP3）。

cat image.png | python scripts/gemini_batch_process.py --task analyze --prompt "描述这个"

python scripts/gemini_batch_process.py --files image.png --task analyze（传统方式）

模型

图像生成: imagen-4.0-generate-001（标准），imagen-4.0-ultra-generate-001（高质量），imagen-4.0-fast-generate-001（快速）
视频生成: veo-3.1-generate-preview（带音频的8秒片段）
分析: gemini-2.5-flash（推荐），gemini-2.5-pro（高级）

脚本

gemini_batch_process.py: CLI编排器，用于transcribe|analyze|extract|generate|generate-video，自动解析API密钥，为任务选择合理的默认模型，流式传输文件内联与文件API，并保存结构化输出（文本/JSON/CSV/markdown加上生成的资源），用于Imagen 4 + Veo工作流。
media_optimizer.py: 基于ffmpeg/Pillow的预检工具，压缩/调整大小/转换音频、图像和视频输入，强制执行目标大小/比特率，将长片段分割为小时块，并批量处理目录，使媒体保持在Gemini限制内。
document_converter.py: 基于Gemini的转换器，上传PDFs/图像/Office文档，应用保留markdown的提示，批量处理多个文件，在docs/assets下自动命名输出，并公开CLI标志用于模型、提示、自动文件命名和详细日志记录。
check_setup.py: 交互式准备检查器，验证目录布局、集中环境解析器、必需的Python依赖项和GEMINI_API_KEY可用性/格式，然后执行实时Gemini API调用，并在任何失败时打印修复指令。

使用--help查看选项。

参考

加载以获取详细指导：

主题	文件	描述
音频	`references/audio-processing.md`	音频格式和限制、转录（时间戳、说话者、片段）、非语音分析、文件API与内联输入、TTS模型、最佳实践、成本和令牌计算，以及具体的会议/播客/访谈示例。
图像	`references/vision-understanding.md`	视觉能力概述、支持的格式和模型、标题生成/分类/视觉问答、检测和分割、OCR和文档阅读、多图像工作流、结构化JSON输出、令牌成本、最佳实践，以及常见产品/截图/图表/场景用例。
图像生成	`references/image-generation.md`	Imagen 4和Gemini图像模型概述、generate_images与generate_content API、宽高比和成本、文本/图像/两种模态、编辑和合成、风格和质量控制、安全设置、最佳实践、故障排除，以及常见营销/概念艺术/UI场景。
视频	`references/video-analysis.md`	视频分析能力和支持的格式、模型/上下文选择、本地/内联/YouTube输入、剪辑和FPS控制、多视频比较、时间问答和场景检测、带视觉上下文的转录、令牌和成本指导，以及优化/最佳实践模式。
视频生成	`references/video-generation.md`	Veo模型矩阵、文本到视频和图像到视频快速开始、多参考和扩展流程、相机和时间控制、配置（分辨率、宽高比、音频、安全）、提示设计模式、性能提示、限制、故障排除和成本估计。

限制

格式: 音频（WAV/MP3/AAC，9.5小时），图像（PNG/JPEG/WEBP，3600像素），视频（MP4/MOV，6小时），PDF（1000页）大小: 20MB内联，2GB文件API

AI多模态

设置

快速开始

模型

脚本

参考

限制

资源