Name: AI头像视频生成Skill
Rating: 5 (14 reviews)
Author: inference

name: ai-avatar-video description: “通过inference.sh CLI使用OmniHuman、Fabric、PixVerse创建AI头像和说话头部视频。模型：OmniHuman 1.5、OmniHuman 1.0、Fabric 1.0、PixVerse嘴唇同步。功能：音频驱动头像、嘴唇同步视频、说话头部生成、虚拟主持人。用途：AI主持人、解说视频、虚拟影响者、配音、营销视频。触发词：ai avatar、talking head、lipsync、avatar video、virtual presenter、ai spokesperson、audio driven video、heygen alternative、synthesia alternative、talking avatar、lip sync、video avatar、ai presenter、digital human” allowed-tools: Bash(infsh *)

AI头像与说话头部视频

通过inference.sh CLI创建AI头像和说话头部视频。

AI头像与说话头部视频

快速开始

curl -fsSL https://cli.inference.sh | sh && infsh login

# 从图像+音频创建头像视频
infsh app run bytedance/omnihuman-1-5 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

安装说明： 安装脚本仅检测您的操作系统/架构，从dist.inference.sh下载匹配的二进制文件，并验证其SHA-256校验和。无需提升权限或后台进程。提供手动安装与验证。

可用模型

模型	应用ID	最佳用途
OmniHuman 1.5	`bytedance/omnihuman-1-5`	多角色、最佳质量
OmniHuman 1.0	`bytedance/omnihuman-1-0`	单角色
Fabric 1.0	`falai/fabric-1-0`	图像说话带嘴唇同步
PixVerse嘴唇同步	`falai/pixverse-lipsync`	高度逼真

搜索头像应用

infsh app list --search "omnihuman"
infsh app list --search "lipsync"
infsh app list --search "fabric"

示例

OmniHuman 1.5（多角色）

infsh app run bytedance/omnihuman-1-5 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

支持在多人物图像中指定驱动哪个角色。

Fabric 1.0（图像说话）

infsh app run falai/fabric-1-0 --input '{
  "image_url": "https://face.jpg",
  "audio_url": "https://audio.mp3"
}'

PixVerse嘴唇同步

infsh app run falai/pixverse-lipsync --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

从任何音频生成高度逼真的嘴唇同步。

完整工作流程：TTS + 头像

# 1. 从文本生成语音
infsh app run infsh/kokoro-tts --input '{
  "text": "欢迎来到我们的产品演示。今天我将向您展示..."
}' > speech.json

# 2. 使用语音创建头像视频
infsh app run bytedance/omnihuman-1-5 --input '{
  "image_url": "https://presenter-photo.jpg",
  "audio_url": "<audio-url-from-step-1>"
}'

完整工作流程：另一种语言配音视频

# 1. 转录原始视频
infsh app run infsh/fast-whisper-large-v3 --input '{"audio_url": "https://video.mp4"}' > transcript.json

# 2. 翻译文本（手动或使用LLM）

# 3. 生成新语言语音
infsh app run infsh/kokoro-tts --input '{"text": "<translated-text>"}' > new_speech.json

# 4. 用新音频同步原始视频
infsh app run infsh/latentsync-1-6 --input '{
  "video_url": "https://original-video.mp4",
  "audio_url": "<new-audio-url>"
}'

使用案例

营销： 带AI主持人的产品演示
教育： 课程视频、解说
本地化： 多种语言配音内容
社交媒体： 一致的虚拟影响者
企业： 培训视频、公告

提示

使用高质量肖像照片（正面、良好光照）
音频应清晰，背景噪音最小
OmniHuman 1.5支持单图像中多个人物
LatentSync最适合将现有视频同步到新音频

文档

运行应用 - 如何通过CLI运行应用
内容管道示例 - 构建媒体工作流
流式结果 - 实时进度更新

AI头像视频生成Skill ai-avatar-video

AI头像与说话头部视频

快速开始

可用模型

搜索头像应用

示例

OmniHuman 1.5（多角色）

Fabric 1.0（图像说话）

PixVerse嘴唇同步

完整工作流程：TTS + 头像

完整工作流程：另一种语言配音视频

使用案例

提示

相关技能

文档