name: ai-avatar-video description: “通过inference.sh CLI使用OmniHuman、Fabric、PixVerse创建AI头像和说话头部视频。模型:OmniHuman 1.5、OmniHuman 1.0、Fabric 1.0、PixVerse嘴唇同步。功能:音频驱动头像、嘴唇同步视频、说话头部生成、虚拟主持人。用途:AI主持人、解说视频、虚拟影响者、配音、营销视频。触发词:ai avatar、talking head、lipsync、avatar video、virtual presenter、ai spokesperson、audio driven video、heygen alternative、synthesia alternative、talking avatar、lip sync、video avatar、ai presenter、digital human” allowed-tools: Bash(infsh *)
AI头像与说话头部视频
通过inference.sh CLI创建AI头像和说话头部视频。

快速开始
curl -fsSL https://cli.inference.sh | sh && infsh login
# 从图像+音频创建头像视频
infsh app run bytedance/omnihuman-1-5 --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
安装说明: 安装脚本仅检测您的操作系统/架构,从
dist.inference.sh下载匹配的二进制文件,并验证其SHA-256校验和。无需提升权限或后台进程。提供手动安装与验证。
可用模型
| 模型 | 应用ID | 最佳用途 |
|---|---|---|
| OmniHuman 1.5 | bytedance/omnihuman-1-5 |
多角色、最佳质量 |
| OmniHuman 1.0 | bytedance/omnihuman-1-0 |
单角色 |
| Fabric 1.0 | falai/fabric-1-0 |
图像说话带嘴唇同步 |
| PixVerse嘴唇同步 | falai/pixverse-lipsync |
高度逼真 |
搜索头像应用
infsh app list --search "omnihuman"
infsh app list --search "lipsync"
infsh app list --search "fabric"
示例
OmniHuman 1.5(多角色)
infsh app run bytedance/omnihuman-1-5 --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
支持在多人物图像中指定驱动哪个角色。
Fabric 1.0(图像说话)
infsh app run falai/fabric-1-0 --input '{
"image_url": "https://face.jpg",
"audio_url": "https://audio.mp3"
}'
PixVerse嘴唇同步
infsh app run falai/pixverse-lipsync --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
从任何音频生成高度逼真的嘴唇同步。
完整工作流程:TTS + 头像
# 1. 从文本生成语音
infsh app run infsh/kokoro-tts --input '{
"text": "欢迎来到我们的产品演示。今天我将向您展示..."
}' > speech.json
# 2. 使用语音创建头像视频
infsh app run bytedance/omnihuman-1-5 --input '{
"image_url": "https://presenter-photo.jpg",
"audio_url": "<audio-url-from-step-1>"
}'
完整工作流程:另一种语言配音视频
# 1. 转录原始视频
infsh app run infsh/fast-whisper-large-v3 --input '{"audio_url": "https://video.mp4"}' > transcript.json
# 2. 翻译文本(手动或使用LLM)
# 3. 生成新语言语音
infsh app run infsh/kokoro-tts --input '{"text": "<translated-text>"}' > new_speech.json
# 4. 用新音频同步原始视频
infsh app run infsh/latentsync-1-6 --input '{
"video_url": "https://original-video.mp4",
"audio_url": "<new-audio-url>"
}'
使用案例
- 营销: 带AI主持人的产品演示
- 教育: 课程视频、解说
- 本地化: 多种语言配音内容
- 社交媒体: 一致的虚拟影响者
- 企业: 培训视频、公告
提示
- 使用高质量肖像照片(正面、良好光照)
- 音频应清晰,背景噪音最小
- OmniHuman 1.5支持单图像中多个人物
- LatentSync最适合将现有视频同步到新音频
相关技能
# 完整平台技能(所有150+应用)
npx skills add inference-sh/skills@inference-sh
# 文本转语音(为头像生成音频)
npx skills add inference-sh/skills@text-to-speech
# 语音转文本(为配音转录)
npx skills add inference-sh/skills@speech-to-text
# 视频生成
npx skills add inference-sh/skills@ai-video-generation
# 图像生成(创建头像图像)
npx skills add inference-sh/skills@ai-image-generation
浏览所有视频应用:infsh app list --category video