语音合成助手Skill sag

sag 是一个基于 ElevenLabs API 的文本到语音工具,支持本地播放,提供多种语音模型和音频标签,用于生成高质量的语音回复,适用于聊天回复、语音内容创作等场景。关键词:文本到语音,语音合成,ElevenLabs,本地播放,音频生成,语音助手。

NLP 0 次安装 0 次浏览 更新于 3/24/2026

名称: sag 描述: ElevenLabs 文本到语音,带有类似Mac风格的说用户体验。 主页: https://sag.sh 元数据: { “otto”: { “表情”: “🗣️”, “要求”: { “二进制文件”: [“sag”], “环境变量”: [“ELEVENLABS_API_KEY”] }, “主要环境变量”: “ELEVENLABS_API_KEY”, “安装”: [ { “id”: “brew”, “类型”: “brew”, “公式”: “steipete/tap/sag”, “二进制文件”: [“sag”], “标签”: “安装 sag (brew)”, }, ], }, }

sag

使用 sag 进行 ElevenLabs TTS 并本地播放。

API 密钥 (必需)

  • ELEVENLABS_API_KEY (首选)
  • SAG_API_KEY 也支持命令行界面

快速开始

  • sag "Hello there"
  • sag speak -v "Roger" "Hello"
  • sag voices
  • sag prompting (模型特定提示)

模型说明

  • 默认: eleven_v3 (表达性强)
  • 稳定: eleven_multilingual_v2
  • 快速: eleven_flash_v2_5

发音和交付规则

  • 第一修正: 重新拼写 (例如 “key-note”), 添加连字符, 调整大小写。
  • 数字/单位/URLs: --normalize auto (或 off 如果损害名称)。
  • 语言偏好: --lang en|de|fr|... 以指导标准化。
  • v3: SSML <break> 不支持; 使用 [pause], [short pause], [long pause]
  • v2/v2.5: SSML <break time="1.5s" /> 支持; <phoneme>sag 中未暴露。

v3 音频标签 (放在行首)

  • [whispers], [shouts], [sings]
  • [laughs], [starts laughing], [sighs], [exhales]
  • [sarcastic], [curious], [excited], [crying], [mischievously]
  • 示例: sag "[whispers] keep this quiet. [short pause] ok?"

语音默认

  • ELEVENLABS_VOICE_IDSAG_VOICE_ID 在长时间输出前确认语音和说话者。

聊天语音回复

当用户要求"语音"回复时 (例如, “疯狂科学家声音”, “用语音解释”), 生成音频并发送:

# 生成音频文件
sag -v Agent -o /tmp/voice-reply.mp3 "你的消息在这里"

# 然后在回复中包含:
# MEDIA:/tmp/voice-reply.mp3

语音角色提示:

  • 疯狂科学家: 使用 [excited] 标签, 戏剧性暂停 [short pause], 变化强度
  • 平静: 使用 [whispers] 或较慢的节奏
  • 戏剧性: 谨慎使用 [sings][shouts]

默认语音: lj2rcrvANS3gaWWnczSX (或仅 -v Agent)