名称: ai-语音克隆 描述: “通过 inference.sh CLI 进行 AI 语音生成、文本到语音转换和语音合成。模型: Kokoro TTS、DIA、Chatterbox、Higgs、VibeVoice 用于自然语音。功能: 多声音、情感、口音、长文本叙述、对话。用途: 语音助手、有声书、播客、视频配音、可访问性。触发词: 语音克隆、tts、文本到语音、ai 语音、语音生成、语音合成、语音助手、叙述、语音合成、ai 叙述者、elevenlabs 替代、自然语音、真实语音、语音 ai” 允许工具: Bash(infsh *)
AI 语音生成
通过 inference.sh CLI 生成自然 AI 语音。

快速开始
curl -fsSL https://cli.inference.sh | sh && infsh login
# 生成语音
infsh app run infsh/kokoro-tts --input '{
"text": "你好!这是一个听起来自然且吸引人的 AI 生成语音。",
"voice": "af_sarah"
}'
安装说明: 安装脚本 仅检测您的操作系统/架构,从
dist.inference.sh下载匹配的二进制文件,并验证其 SHA-256 校验和。无需提升权限或后台进程。手动安装和验证 可用。
可用模型
| 模型 | 应用 ID | 最适合 |
|---|---|---|
| Kokoro TTS | infsh/kokoro-tts |
自然,多声音 |
| DIA | infsh/dia-tts |
会话式,表达性强 |
| Chatterbox | infsh/chatterbox |
休闲,娱乐 |
| Higgs | infsh/higgs-tts |
专业叙述 |
| VibeVoice | infsh/vibevoice |
情感范围广 |
Kokoro 声音库
美式英语
| 声音 ID | 性别 | 风格 |
|---|---|---|
af_sarah |
女性 | 温暖,友好 |
af_nicole |
女性 | 专业 |
af_sky |
女性 | 年轻 |
am_michael |
男性 | 权威 |
am_adam |
男性 | 会话式 |
am_echo |
男性 | 清晰,中性 |
英式英语
| 声音 ID | 性别 | 风格 |
|---|---|---|
bf_emma |
女性 | 优雅 |
bf_isabella |
女性 | 温暖 |
bm_george |
男性 | 经典 |
bm_lewis |
男性 | 现代 |
语音生成示例
专业叙述
infsh app run infsh/kokoro-tts --input '{
"text": "欢迎参加我们的季度收益电话会议。今天我们将讨论过去一个季度的财务表现和战略举措。",
"voice": "am_michael",
"speed": 1.0
}'
会话式风格
infsh app run infsh/dia-tts --input '{
"text": "嘿,我在想我们讨论的那个项目。如果我们尝试一种不同的方法呢?",
"voice": "conversational"
}'
有声书叙述
infsh app run infsh/kokoro-tts --input '{
"text": "第一章。晨雾低垂在山谷上,莎拉沿着蜿蜒的小路前行。她已经走了几个小时。",
"voice": "bf_emma",
"speed": 0.9
}'
视频配音
infsh app run infsh/kokoro-tts --input '{
"text": "介绍下一代生产力工具。工作更智能,而非更努力。",
"voice": "af_nicole",
"speed": 1.1
}'
播客主持人
infsh app run infsh/kokoro-tts --input '{
"text": "欢迎回到科技谈话!我是您的主持人,今天我们将深入探讨人工智能的世界。",
"voice": "am_adam"
}'
多声音对话
# 生成两个说话者之间的对话
# 说话者 1
infsh app run infsh/kokoro-tts --input '{
"text": "您看到最新的 AI 进展了吗?事物发展得如此之快,真是不可思议。",
"voice": "am_michael"
}' > speaker1.json
# 说话者 2
infsh app run infsh/kokoro-tts --input '{
"text": "我知道,对吧?就在上周我试了那个新的图像生成器,被震撼到了。",
"voice": "af_sarah"
}' > speaker2.json
# 合并对话
infsh app run infsh/media-merger --input '{
"audio_files": ["<speaker1-url>", "<speaker2-url>"],
"crossfade_ms": 300
}'
长文本内容
分块处理
对于超过 5000 个字符的内容,分割成块:
# 处理长文本分块
TEXT="您的很长文本在这里..."
# 分割并生成
# 块 1
infsh app run infsh/kokoro-tts --input '{
"text": "<chunk-1>",
"voice": "bf_emma"
}' > chunk1.json
# 块 2
infsh app run infsh/kokoro-tts --input '{
"text": "<chunk-2>",
"voice": "bf_emma"
}' > chunk2.json
# 合并块
infsh app run infsh/media-merger --input '{
"audio_files": ["<chunk1-url>", "<chunk2-url>"],
"crossfade_ms": 100
}'
语音 + 视频工作流程
为视频添加配音
# 1. 生成配音
infsh app run infsh/kokoro-tts --input '{
"text": "这段令人惊叹的镜头展示了自然之美的最纯粹形式。",
"voice": "am_michael"
}' > voiceover.json
# 2. 与视频合并
infsh app run infsh/media-merger --input '{
"video_url": "https://your-video.mp4",
"audio_url": "<voiceover-url>"
}'
创建说话头像
# 1. 生成语音
infsh app run infsh/kokoro-tts --input '{
"text": "嗨,我很兴奋今天与您分享一些更新。",
"voice": "af_sarah"
}' > speech.json
# 2. 使用头像动画化
infsh app run bytedance/omnihuman-1-5 --input '{
"image_url": "https://portrait.jpg",
"audio_url": "<speech-url>"
}'
速度和节奏
| 速度 | 效果 | 用途 |
|---|---|---|
| 0.8 | 慢速,慎重 | 有声书,冥想 |
| 0.9 | 稍慢 | 教育,教程 |
| 1.0 | 正常 | 通用 |
| 1.1 | 稍快 | 商业广告,活力 |
| 1.2 | 快速 | 快速公告 |
# 慢速叙述
infsh app run infsh/kokoro-tts --input '{
"text": "深吸一口气。让自己放松下来。",
"voice": "bf_emma",
"speed": 0.8
}'
标点符号控制节奏
使用标点符号控制语音节奏:
| 标点符号 | 效果 |
|---|---|
句号 . |
完整暂停 |
逗号 , |
短暂暂停 |
... |
延长暂停 |
! |
强调 |
? |
疑问语调 |
- |
快速中断 |
infsh app run infsh/kokoro-tts --input '{
"text": "等等... 您听到那个了吗?有什么东西来了。有什么大东西!",
"voice": "am_adam"
}'
最佳实践
- 匹配声音到内容 - 专业声音用于商业,休闲用于社交
- 使用标点符号 - 用句号和逗号控制节奏
- 保持句子简短 - 更容易生成且听起来更自然
- 测试不同声音 - 相同文本在不同声音中听起来不同
- 调整速度 - 稍慢通常听起来更自然
- 分割长内容 - 分块处理以确保一致性
使用案例
- 配音 - 视频叙述,商业广告
- 有声书 - 全本书叙述
- 播客 - AI 主持人和嘉宾
- 在线学习 - 课程叙述
- 可访问性 - 屏幕阅读器内容
- 交互式语音应答 - 电话系统消息
- 内容本地化 - 翻译和配音
相关技能
# 所有 TTS 模型
npx skills add inference-sh/skills@text-to-speech
# 播客创建
npx skills add inference-sh/skills@ai-podcast-creation
# AI 头像
npx skills add inference-sh/skills@ai-avatar-video
# 视频生成
npx skills add inference-sh/skills@ai-video-generation
# 完整平台技能
npx skills add inference-sh/skills@inference-sh
浏览音频应用: infsh app list --category audio