Name: AI语音克隆Skill
Rating: 5 (9 reviews)
Author: inference

名称: ai-语音克隆描述: “通过 inference.sh CLI 进行 AI 语音生成、文本到语音转换和语音合成。模型: Kokoro TTS、DIA、Chatterbox、Higgs、VibeVoice 用于自然语音。功能: 多声音、情感、口音、长文本叙述、对话。用途: 语音助手、有声书、播客、视频配音、可访问性。触发词: 语音克隆、tts、文本到语音、ai 语音、语音生成、语音合成、语音助手、叙述、语音合成、ai 叙述者、elevenlabs 替代、自然语音、真实语音、语音 ai” 允许工具: Bash(infsh *)

AI 语音生成

通过 inference.sh CLI 生成自然 AI 语音。

AI 语音生成

快速开始

curl -fsSL https://cli.inference.sh | sh && infsh login

# 生成语音
infsh app run infsh/kokoro-tts --input '{
  "text": "你好！这是一个听起来自然且吸引人的 AI 生成语音。",
  "voice": "af_sarah"
}'

安装说明: 安装脚本仅检测您的操作系统/架构，从 dist.inference.sh 下载匹配的二进制文件，并验证其 SHA-256 校验和。无需提升权限或后台进程。手动安装和验证可用。

可用模型

模型	应用 ID	最适合
Kokoro TTS	`infsh/kokoro-tts`	自然，多声音
DIA	`infsh/dia-tts`	会话式，表达性强
Chatterbox	`infsh/chatterbox`	休闲，娱乐
Higgs	`infsh/higgs-tts`	专业叙述
VibeVoice	`infsh/vibevoice`	情感范围广

Kokoro 声音库

美式英语

声音 ID	性别	风格
`af_sarah`	女性	温暖，友好
`af_nicole`	女性	专业
`af_sky`	女性	年轻
`am_michael`	男性	权威
`am_adam`	男性	会话式
`am_echo`	男性	清晰，中性

英式英语

声音 ID	性别	风格
`bf_emma`	女性	优雅
`bf_isabella`	女性	温暖
`bm_george`	男性	经典
`bm_lewis`	男性	现代

语音生成示例

专业叙述

infsh app run infsh/kokoro-tts --input '{
  "text": "欢迎参加我们的季度收益电话会议。今天我们将讨论过去一个季度的财务表现和战略举措。",
  "voice": "am_michael",
  "speed": 1.0
}'

会话式风格

infsh app run infsh/dia-tts --input '{
  "text": "嘿，我在想我们讨论的那个项目。如果我们尝试一种不同的方法呢？",
  "voice": "conversational"
}'

有声书叙述

infsh app run infsh/kokoro-tts --input '{
  "text": "第一章。晨雾低垂在山谷上，莎拉沿着蜿蜒的小路前行。她已经走了几个小时。",
  "voice": "bf_emma",
  "speed": 0.9
}'

视频配音

infsh app run infsh/kokoro-tts --input '{
  "text": "介绍下一代生产力工具。工作更智能，而非更努力。",
  "voice": "af_nicole",
  "speed": 1.1
}'

播客主持人

infsh app run infsh/kokoro-tts --input '{
  "text": "欢迎回到科技谈话！我是您的主持人，今天我们将深入探讨人工智能的世界。",
  "voice": "am_adam"
}'

多声音对话

# 生成两个说话者之间的对话
# 说话者 1
infsh app run infsh/kokoro-tts --input '{
  "text": "您看到最新的 AI 进展了吗？事物发展得如此之快，真是不可思议。",
  "voice": "am_michael"
}' > speaker1.json

# 说话者 2
infsh app run infsh/kokoro-tts --input '{
  "text": "我知道，对吧？就在上周我试了那个新的图像生成器，被震撼到了。",
  "voice": "af_sarah"
}' > speaker2.json

# 合并对话
infsh app run infsh/media-merger --input '{
  "audio_files": ["<speaker1-url>", "<speaker2-url>"],
  "crossfade_ms": 300
}'

长文本内容

分块处理

对于超过 5000 个字符的内容，分割成块：

# 处理长文本分块
TEXT="您的很长文本在这里..."

# 分割并生成
# 块 1
infsh app run infsh/kokoro-tts --input '{
  "text": "<chunk-1>",
  "voice": "bf_emma"
}' > chunk1.json

# 块 2
infsh app run infsh/kokoro-tts --input '{
  "text": "<chunk-2>",
  "voice": "bf_emma"
}' > chunk2.json

# 合并块
infsh app run infsh/media-merger --input '{
  "audio_files": ["<chunk1-url>", "<chunk2-url>"],
  "crossfade_ms": 100
}'

语音 + 视频工作流程

为视频添加配音

# 1. 生成配音
infsh app run infsh/kokoro-tts --input '{
  "text": "这段令人惊叹的镜头展示了自然之美的最纯粹形式。",
  "voice": "am_michael"
}' > voiceover.json

# 2. 与视频合并
infsh app run infsh/media-merger --input '{
  "video_url": "https://your-video.mp4",
  "audio_url": "<voiceover-url>"
}'

创建说话头像

# 1. 生成语音
infsh app run infsh/kokoro-tts --input '{
  "text": "嗨，我很兴奋今天与您分享一些更新。",
  "voice": "af_sarah"
}' > speech.json

# 2. 使用头像动画化
infsh app run bytedance/omnihuman-1-5 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "<speech-url>"
}'

速度和节奏

速度	效果	用途
0.8	慢速，慎重	有声书，冥想
0.9	稍慢	教育，教程
1.0	正常	通用
1.1	稍快	商业广告，活力
1.2	快速	快速公告

# 慢速叙述
infsh app run infsh/kokoro-tts --input '{
  "text": "深吸一口气。让自己放松下来。",
  "voice": "bf_emma",
  "speed": 0.8
}'

标点符号控制节奏

使用标点符号控制语音节奏：

标点符号	效果
句号 `.`	完整暂停
逗号 `,`	短暂暂停
`...`	延长暂停
`!`	强调
`?`	疑问语调
`-`	快速中断

infsh app run infsh/kokoro-tts --input '{
  "text": "等等... 您听到那个了吗？有什么东西来了。有什么大东西！",
  "voice": "am_adam"
}'

最佳实践

匹配声音到内容 - 专业声音用于商业，休闲用于社交
使用标点符号 - 用句号和逗号控制节奏
保持句子简短 - 更容易生成且听起来更自然
测试不同声音 - 相同文本在不同声音中听起来不同
调整速度 - 稍慢通常听起来更自然
分割长内容 - 分块处理以确保一致性

使用案例

配音 - 视频叙述，商业广告
有声书 - 全本书叙述
播客 - AI 主持人和嘉宾
在线学习 - 课程叙述
可访问性 - 屏幕阅读器内容
交互式语音应答 - 电话系统消息
内容本地化 - 翻译和配音

AI语音克隆Skill ai-voice-cloning

AI 语音生成

快速开始

可用模型

Kokoro 声音库

美式英语

英式英语

语音生成示例

专业叙述

会话式风格

有声书叙述

视频配音

播客主持人

多声音对话

长文本内容

分块处理

语音 + 视频工作流程

为视频添加配音

创建说话头像

速度和节奏

标点符号控制节奏

最佳实践

使用案例

相关技能