AI语音克隆Skill ai-voice-cloning

AI 语音克隆技能使用先进的 AI 技术进行文本到语音转换和语音合成,支持多种声音、情感、口音、长文本叙述和对话功能。适用于语音助手、有声书制作、播客生成、视频配音、可访问性增强等场景,关键词包括 AI 语音生成、文本到语音、语音合成、语音克隆、有声书、视频配音、AIGC、自然语音。

AIGC 4 次安装 15 次浏览 更新于 3/12/2026

名称: ai-语音克隆 描述: “通过 inference.sh CLI 进行 AI 语音生成、文本到语音转换和语音合成。模型: Kokoro TTS、DIA、Chatterbox、Higgs、VibeVoice 用于自然语音。功能: 多声音、情感、口音、长文本叙述、对话。用途: 语音助手、有声书、播客、视频配音、可访问性。触发词: 语音克隆、tts、文本到语音、ai 语音、语音生成、语音合成、语音助手、叙述、语音合成、ai 叙述者、elevenlabs 替代、自然语音、真实语音、语音 ai” 允许工具: Bash(infsh *)

AI 语音生成

通过 inference.sh CLI 生成自然 AI 语音。

AI 语音生成

快速开始

curl -fsSL https://cli.inference.sh | sh && infsh login

# 生成语音
infsh app run infsh/kokoro-tts --input '{
  "text": "你好!这是一个听起来自然且吸引人的 AI 生成语音。",
  "voice": "af_sarah"
}'

安装说明: 安装脚本 仅检测您的操作系统/架构,从 dist.inference.sh 下载匹配的二进制文件,并验证其 SHA-256 校验和。无需提升权限或后台进程。手动安装和验证 可用。

可用模型

模型 应用 ID 最适合
Kokoro TTS infsh/kokoro-tts 自然,多声音
DIA infsh/dia-tts 会话式,表达性强
Chatterbox infsh/chatterbox 休闲,娱乐
Higgs infsh/higgs-tts 专业叙述
VibeVoice infsh/vibevoice 情感范围广

Kokoro 声音库

美式英语

声音 ID 性别 风格
af_sarah 女性 温暖,友好
af_nicole 女性 专业
af_sky 女性 年轻
am_michael 男性 权威
am_adam 男性 会话式
am_echo 男性 清晰,中性

英式英语

声音 ID 性别 风格
bf_emma 女性 优雅
bf_isabella 女性 温暖
bm_george 男性 经典
bm_lewis 男性 现代

语音生成示例

专业叙述

infsh app run infsh/kokoro-tts --input '{
  "text": "欢迎参加我们的季度收益电话会议。今天我们将讨论过去一个季度的财务表现和战略举措。",
  "voice": "am_michael",
  "speed": 1.0
}'

会话式风格

infsh app run infsh/dia-tts --input '{
  "text": "嘿,我在想我们讨论的那个项目。如果我们尝试一种不同的方法呢?",
  "voice": "conversational"
}'

有声书叙述

infsh app run infsh/kokoro-tts --input '{
  "text": "第一章。晨雾低垂在山谷上,莎拉沿着蜿蜒的小路前行。她已经走了几个小时。",
  "voice": "bf_emma",
  "speed": 0.9
}'

视频配音

infsh app run infsh/kokoro-tts --input '{
  "text": "介绍下一代生产力工具。工作更智能,而非更努力。",
  "voice": "af_nicole",
  "speed": 1.1
}'

播客主持人

infsh app run infsh/kokoro-tts --input '{
  "text": "欢迎回到科技谈话!我是您的主持人,今天我们将深入探讨人工智能的世界。",
  "voice": "am_adam"
}'

多声音对话

# 生成两个说话者之间的对话
# 说话者 1
infsh app run infsh/kokoro-tts --input '{
  "text": "您看到最新的 AI 进展了吗?事物发展得如此之快,真是不可思议。",
  "voice": "am_michael"
}' > speaker1.json

# 说话者 2
infsh app run infsh/kokoro-tts --input '{
  "text": "我知道,对吧?就在上周我试了那个新的图像生成器,被震撼到了。",
  "voice": "af_sarah"
}' > speaker2.json

# 合并对话
infsh app run infsh/media-merger --input '{
  "audio_files": ["<speaker1-url>", "<speaker2-url>"],
  "crossfade_ms": 300
}'

长文本内容

分块处理

对于超过 5000 个字符的内容,分割成块:

# 处理长文本分块
TEXT="您的很长文本在这里..."

# 分割并生成
# 块 1
infsh app run infsh/kokoro-tts --input '{
  "text": "<chunk-1>",
  "voice": "bf_emma"
}' > chunk1.json

# 块 2
infsh app run infsh/kokoro-tts --input '{
  "text": "<chunk-2>",
  "voice": "bf_emma"
}' > chunk2.json

# 合并块
infsh app run infsh/media-merger --input '{
  "audio_files": ["<chunk1-url>", "<chunk2-url>"],
  "crossfade_ms": 100
}'

语音 + 视频工作流程

为视频添加配音

# 1. 生成配音
infsh app run infsh/kokoro-tts --input '{
  "text": "这段令人惊叹的镜头展示了自然之美的最纯粹形式。",
  "voice": "am_michael"
}' > voiceover.json

# 2. 与视频合并
infsh app run infsh/media-merger --input '{
  "video_url": "https://your-video.mp4",
  "audio_url": "<voiceover-url>"
}'

创建说话头像

# 1. 生成语音
infsh app run infsh/kokoro-tts --input '{
  "text": "嗨,我很兴奋今天与您分享一些更新。",
  "voice": "af_sarah"
}' > speech.json

# 2. 使用头像动画化
infsh app run bytedance/omnihuman-1-5 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "<speech-url>"
}'

速度和节奏

速度 效果 用途
0.8 慢速,慎重 有声书,冥想
0.9 稍慢 教育,教程
1.0 正常 通用
1.1 稍快 商业广告,活力
1.2 快速 快速公告
# 慢速叙述
infsh app run infsh/kokoro-tts --input '{
  "text": "深吸一口气。让自己放松下来。",
  "voice": "bf_emma",
  "speed": 0.8
}'

标点符号控制节奏

使用标点符号控制语音节奏:

标点符号 效果
句号 . 完整暂停
逗号 , 短暂暂停
... 延长暂停
! 强调
? 疑问语调
- 快速中断
infsh app run infsh/kokoro-tts --input '{
  "text": "等等... 您听到那个了吗?有什么东西来了。有什么大东西!",
  "voice": "am_adam"
}'

最佳实践

  1. 匹配声音到内容 - 专业声音用于商业,休闲用于社交
  2. 使用标点符号 - 用句号和逗号控制节奏
  3. 保持句子简短 - 更容易生成且听起来更自然
  4. 测试不同声音 - 相同文本在不同声音中听起来不同
  5. 调整速度 - 稍慢通常听起来更自然
  6. 分割长内容 - 分块处理以确保一致性

使用案例

  • 配音 - 视频叙述,商业广告
  • 有声书 - 全本书叙述
  • 播客 - AI 主持人和嘉宾
  • 在线学习 - 课程叙述
  • 可访问性 - 屏幕阅读器内容
  • 交互式语音应答 - 电话系统消息
  • 内容本地化 - 翻译和配音

相关技能

# 所有 TTS 模型
npx skills add inference-sh/skills@text-to-speech

# 播客创建
npx skills add inference-sh/skills@ai-podcast-creation

# AI 头像
npx skills add inference-sh/skills@ai-avatar-video

# 视频生成
npx skills add inference-sh/skills@ai-video-generation

# 完整平台技能
npx skills add inference-sh/skills@inference-sh

浏览音频应用: infsh app list --category audio