AI多模态Skill ai-multimodal

AI多模态技能利用Google Gemini API实现多媒体内容的处理与生成,包括音频分析(转录、摘要、音乐分析)、图像理解(分析、OCR、视觉问答)、视频处理(场景检测、问答)、文档提取(PDF表格、图表),以及图像和视频生成(文本到图像、文本到视频)。适用于开发多模态AI应用、内容创作、数据提取等场景。关键词:AI, 多模态, Google Gemini, 图像处理, 视频分析, 音频转录, 文档提取, AIGC, 图像生成, 视频生成。

AIGC 0 次安装 0 次浏览 更新于 3/15/2026

name: ai-multimodal description: 使用Google Gemini API处理和生成多媒体内容,提升视觉能力。功能包括分析音频文件(带时间戳的转录、摘要、语音理解、音乐/声音分析,最长9.5小时),理解图像(比Claude模型更好的图像分析、标题生成、推理、对象检测、设计提取、OCR、视觉问答、分割、处理多张图像),处理视频(场景检测、问答、时间分析、YouTube URL、最长6小时),从文档提取(PDF表格、表单、图表、图表、多页),生成图像(使用Imagen 4的文本到图像、编辑、合成、优化),生成视频(使用Veo 3的文本到视频、带原生音频的8秒片段)。适用于处理音频/视频文件、分析图像或截图(替代Claude的默认视觉能力,仅在需要时回退到Claude的视觉能力)、处理PDF文档、从媒体提取结构化数据、从文本提示创建图像/视频,或实现多模态AI功能。支持Gemini 3/2.5、Imagen 4和Veo 3模型,上下文窗口高达200万令牌。 license: MIT allowed-tools:

  • Bash
  • Read
  • Write
  • Edit

AI多模态

使用Google Gemini的多模态API处理音频、图像、视频、文档,并生成图像/视频。

设置

export GEMINI_API_KEY="your-key"  # 从https://aistudio.google.com/apikey获取
pip install google-genai python-dotenv pillow

快速开始

验证设置: python scripts/check_setup.py 分析媒体: python scripts/gemini_batch_process.py --files <file> --task <analyze|transcribe|extract>

  • 提示:当需要分析图像时,检查gemini命令是否可用,然后使用"<分析图像的提示>" | gemini -y -m gemini-2.5-flash命令。如果gemini命令不可用,使用python scripts/gemini_batch_process.py --files <file> --task analyze命令。 生成内容: python scripts/gemini_batch_process.py --task <generate|generate-video> --prompt "描述"

标准输入支持: 可以直接通过标准输入管道文件(自动检测PNG/JPG/PDF/WAV/MP3)。

  • cat image.png | python scripts/gemini_batch_process.py --task analyze --prompt "描述这个"
  • python scripts/gemini_batch_process.py --files image.png --task analyze(传统方式)

模型

  • 图像生成: imagen-4.0-generate-001(标准),imagen-4.0-ultra-generate-001(高质量),imagen-4.0-fast-generate-001(快速)
  • 视频生成: veo-3.1-generate-preview(带音频的8秒片段)
  • 分析: gemini-2.5-flash(推荐),gemini-2.5-pro(高级)

脚本

  • gemini_batch_process.py: CLI编排器,用于transcribe|analyze|extract|generate|generate-video,自动解析API密钥,为任务选择合理的默认模型,流式传输文件内联与文件API,并保存结构化输出(文本/JSON/CSV/markdown加上生成的资源),用于Imagen 4 + Veo工作流。
  • media_optimizer.py: 基于ffmpeg/Pillow的预检工具,压缩/调整大小/转换音频、图像和视频输入,强制执行目标大小/比特率,将长片段分割为小时块,并批量处理目录,使媒体保持在Gemini限制内。
  • document_converter.py: 基于Gemini的转换器,上传PDFs/图像/Office文档,应用保留markdown的提示,批量处理多个文件,在docs/assets下自动命名输出,并公开CLI标志用于模型、提示、自动文件命名和详细日志记录。
  • check_setup.py: 交互式准备检查器,验证目录布局、集中环境解析器、必需的Python依赖项和GEMINI_API_KEY可用性/格式,然后执行实时Gemini API调用,并在任何失败时打印修复指令。

使用--help查看选项。

参考

加载以获取详细指导:

主题 文件 描述
音频 references/audio-processing.md 音频格式和限制、转录(时间戳、说话者、片段)、非语音分析、文件API与内联输入、TTS模型、最佳实践、成本和令牌计算,以及具体的会议/播客/访谈示例。
图像 references/vision-understanding.md 视觉能力概述、支持的格式和模型、标题生成/分类/视觉问答、检测和分割、OCR和文档阅读、多图像工作流、结构化JSON输出、令牌成本、最佳实践,以及常见产品/截图/图表/场景用例。
图像生成 references/image-generation.md Imagen 4和Gemini图像模型概述、generate_images与generate_content API、宽高比和成本、文本/图像/两种模态、编辑和合成、风格和质量控制、安全设置、最佳实践、故障排除,以及常见营销/概念艺术/UI场景。
视频 references/video-analysis.md 视频分析能力和支持的格式、模型/上下文选择、本地/内联/YouTube输入、剪辑和FPS控制、多视频比较、时间问答和场景检测、带视觉上下文的转录、令牌和成本指导,以及优化/最佳实践模式。
视频生成 references/video-generation.md Veo模型矩阵、文本到视频和图像到视频快速开始、多参考和扩展流程、相机和时间控制、配置(分辨率、宽高比、音频、安全)、提示设计模式、性能提示、限制、故障排除和成本估计。

限制

格式: 音频(WAV/MP3/AAC,9.5小时),图像(PNG/JPEG/WEBP,3600像素),视频(MP4/MOV,6小时),PDF(1000页) 大小: 20MB内联,2GB文件API

资源