文本转语音Skill text-to-speech

这是一个基于AI的文本转语音技能,通过inference.sh CLI使用DIA TTS、Kokoro TTS等模型,实现高质量的自然语音合成。支持语音克隆、多说话人对话、播客生成等功能,适用于语音叠加、有声书制作、视频旁白、可访问性应用和语音助手开发。关键词:文本转语音,TTS,语音生成,AI语音,语音克隆,播客制作,ElevenLabs替代。

NLP 0 次安装 0 次浏览 更新于 3/12/2026

name: 文本转语音 description: “通过DIA TTS、Kokoro、Chatterbox等模型,使用inference.sh CLI将文本转换为自然语音。模型:DIA TTS(对话式),Kokoro TTS,Chatterbox,Higgs Audio,VibeVoice(播客)。功能:文本转语音,语音克隆,多说话人对话,播客生成,表达性语音。用途:语音叠加,有声书,播客,可访问性,视频旁白,IVR,语音助手。触发词:文本转语音,tts,语音生成,ai语音,语音合成,语音叠加,生成语音,ai旁白,语音克隆,文本转音频,elevenlabs替代,语音ai,ai语音叠加,语音生成器,自然语音。” allowed-tools: Bash(infsh *)

文本转语音

通过inference.sh CLI将文本转换为自然语音。

文本转语音

快速开始

# 安装CLI
curl -fsSL https://cli.inference.sh | sh && infsh login

# 生成语音
infsh app run infsh/kokoro-tts --input '{"text": "Hello, welcome to our product demo."}'

安装说明: 安装脚本仅检测您的操作系统/架构,从dist.inference.sh下载匹配的二进制文件,并验证其SHA-256校验和。无需提升权限或后台进程。提供手动安装和验证

可用模型

模型 应用ID 最佳用途
DIA TTS infsh/dia-tts 对话式,表达性
Kokoro TTS infsh/kokoro-tts 快速,自然
Chatterbox infsh/chatterbox 通用目的
Higgs Audio infsh/higgs-audio 情感控制
VibeVoice infsh/vibevoice 播客,长篇

浏览所有音频应用

infsh app list --category audio

示例

基本文本转语音

infsh app run infsh/kokoro-tts --input '{"text": "Welcome to our tutorial."}'

使用DIA的对话式TTS

infsh app sample infsh/dia-tts --save input.json

# 编辑input.json:
# {
#   "text": "嘿!你今天怎么样?我真的很兴奋能和你分享这个。",
#   "voice": "conversational"
# }

infsh app run infsh/dia-tts --input input.json

长篇音频(播客)

infsh app sample infsh/vibevoice --save input.json

# 用您的播客脚本编辑input.json
infsh app run infsh/vibevoice --input input.json

使用Higgs的表达性语音

infsh app sample infsh/higgs-audio --save input.json

# {
#   "text": "这绝对是难以置信的!",
#   "emotion": "excited"
# }

infsh app run infsh/higgs-audio --input input.json

使用案例

  • 语音叠加:产品演示,解释视频
  • 有声书:将文本转换为口语
  • 播客:生成播客剧集
  • 可访问性:使内容可访问
  • IVR:电话系统语音提示
  • 视频旁白:向视频添加旁白

与视频结合

生成语音,然后创建说话头像视频:

# 1. 生成语音
infsh app run infsh/kokoro-tts --input '{"text": "您的脚本这里"}' > speech.json

# 2. 使用音频URL与OmniHuman创建头像视频
infsh app run bytedance/omnihuman-1-5 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "<audio-url-from-step-1>"
}'

相关技能

# 完整平台技能(所有150+应用)
npx skills add inference-sh/skills@inference-sh

# AI头像(将TTS与说话头像结合)
npx skills add inference-sh/skills@ai-avatar-video

# AI音乐生成
npx skills add inference-sh/skills@ai-music-generation

# 语音转文本(转录)
npx skills add inference-sh/skills@speech-to-text

# 视频生成
npx skills add inference-sh/skills@ai-video-generation

浏览所有应用:infsh app list

文档