AI头像视频生成Skill ai-avatar-video

此技能用于通过inference.sh命令行工具创建AI驱动的头像和说话头部视频,支持多种先进模型如OmniHuman、Fabric和PixVerse,实现音频驱动、嘴唇同步和虚拟主持人功能。适用于AI主持人制作、教育解说视频、多语言配音、营销内容生成等场景。关键词:AI头像、说话头部、视频生成、嘴唇同步、虚拟主持人、AI应用、音频驱动视频、内容创建。

AIGC 0 次安装 0 次浏览 更新于 3/12/2026

name: ai-avatar-video description: “通过inference.sh CLI使用OmniHuman、Fabric、PixVerse创建AI头像和说话头部视频。模型:OmniHuman 1.5、OmniHuman 1.0、Fabric 1.0、PixVerse嘴唇同步。功能:音频驱动头像、嘴唇同步视频、说话头部生成、虚拟主持人。用途:AI主持人、解说视频、虚拟影响者、配音、营销视频。触发词:ai avatar、talking head、lipsync、avatar video、virtual presenter、ai spokesperson、audio driven video、heygen alternative、synthesia alternative、talking avatar、lip sync、video avatar、ai presenter、digital human” allowed-tools: Bash(infsh *)

AI头像与说话头部视频

通过inference.sh CLI创建AI头像和说话头部视频。

AI头像与说话头部视频

快速开始

curl -fsSL https://cli.inference.sh | sh && infsh login

# 从图像+音频创建头像视频
infsh app run bytedance/omnihuman-1-5 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

安装说明: 安装脚本仅检测您的操作系统/架构,从dist.inference.sh下载匹配的二进制文件,并验证其SHA-256校验和。无需提升权限或后台进程。提供手动安装与验证

可用模型

模型 应用ID 最佳用途
OmniHuman 1.5 bytedance/omnihuman-1-5 多角色、最佳质量
OmniHuman 1.0 bytedance/omnihuman-1-0 单角色
Fabric 1.0 falai/fabric-1-0 图像说话带嘴唇同步
PixVerse嘴唇同步 falai/pixverse-lipsync 高度逼真

搜索头像应用

infsh app list --search "omnihuman"
infsh app list --search "lipsync"
infsh app list --search "fabric"

示例

OmniHuman 1.5(多角色)

infsh app run bytedance/omnihuman-1-5 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

支持在多人物图像中指定驱动哪个角色。

Fabric 1.0(图像说话)

infsh app run falai/fabric-1-0 --input '{
  "image_url": "https://face.jpg",
  "audio_url": "https://audio.mp3"
}'

PixVerse嘴唇同步

infsh app run falai/pixverse-lipsync --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

从任何音频生成高度逼真的嘴唇同步。

完整工作流程:TTS + 头像

# 1. 从文本生成语音
infsh app run infsh/kokoro-tts --input '{
  "text": "欢迎来到我们的产品演示。今天我将向您展示..."
}' > speech.json

# 2. 使用语音创建头像视频
infsh app run bytedance/omnihuman-1-5 --input '{
  "image_url": "https://presenter-photo.jpg",
  "audio_url": "<audio-url-from-step-1>"
}'

完整工作流程:另一种语言配音视频

# 1. 转录原始视频
infsh app run infsh/fast-whisper-large-v3 --input '{"audio_url": "https://video.mp4"}' > transcript.json

# 2. 翻译文本(手动或使用LLM)

# 3. 生成新语言语音
infsh app run infsh/kokoro-tts --input '{"text": "<translated-text>"}' > new_speech.json

# 4. 用新音频同步原始视频
infsh app run infsh/latentsync-1-6 --input '{
  "video_url": "https://original-video.mp4",
  "audio_url": "<new-audio-url>"
}'

使用案例

  • 营销: 带AI主持人的产品演示
  • 教育: 课程视频、解说
  • 本地化: 多种语言配音内容
  • 社交媒体: 一致的虚拟影响者
  • 企业: 培训视频、公告

提示

  • 使用高质量肖像照片(正面、良好光照)
  • 音频应清晰,背景噪音最小
  • OmniHuman 1.5支持单图像中多个人物
  • LatentSync最适合将现有视频同步到新音频

相关技能

# 完整平台技能(所有150+应用)
npx skills add inference-sh/skills@inference-sh

# 文本转语音(为头像生成音频)
npx skills add inference-sh/skills@text-to-speech

# 语音转文本(为配音转录)
npx skills add inference-sh/skills@speech-to-text

# 视频生成
npx skills add inference-sh/skills@ai-video-generation

# 图像生成(创建头像图像)
npx skills add inference-sh/skills@ai-image-generation

浏览所有视频应用:infsh app list --category video

文档