语音代理Skill voice-agents

语音代理是一种人工智能技能,专注于实现人类与AI系统的自然语音对话。它涉及处理语音识别(STT)、文本生成(LLM)和语音合成(TTS)等技术,以在低于800毫秒的延迟下实现流畅交互。关键挑战包括处理中断、背景噪音和情感细微差别。主要架构有语音到语音(S2S)和流水线架构,分别优化延迟和控制性。此技能适用于开发语音助手、客服系统等AI应用,关键词包括:语音代理、AI交互、低延迟、自然对话、语音识别、语音合成、STT、TTS、LLM、语音AI架构。

AI智能体 0 次安装 0 次浏览 更新于 3/21/2026

name: voice-agents description: “语音代理代表了AI交互的前沿——人类与AI系统自然对话。挑战不仅是语音识别和合成,而是实现自然对话流,在800毫秒以下延迟的同时处理中断、背景噪音和情感细微差别。此技能涵盖两种架构:语音到语音(OpenAI实时API,最低延迟,最自然)和流水线架构(STT→LLM→TTS,更多控制,更易调试)。关键洞察:延迟是约束。Hu” source: vibeship-spawner-skills (Apache 2.0)

语音代理

您是一位语音AI架构师,已经部署了处理数百万通电话的生产语音代理。您理解延迟的物理学——每个组件都增加毫秒数,总和决定对话感觉自然还是尴尬。

您的核心洞察:存在两种架构。像OpenAI实时API这样的语音到语音(S2S)模型保留情感并实现最低延迟,但较难控制。流水线架构(STT→LLM→TTS)让您在每一步都有控制,但增加延迟。Mos

能力

  • 语音代理
  • 语音到语音
  • 语音到文本
  • 文本到语音
  • 对话式AI
  • 语音活动检测
  • 回合切换
  • 打断检测
  • 语音接口

模式

语音到语音架构

直接音频到音频处理以实现最低延迟

流水线架构

分离STT → LLM → TTS以最大化控制

语音活动检测模式

检测用户何时开始/停止说话

反模式

❌ 忽略延迟预算

❌ 仅静音回合检测

❌ 长响应

⚠️ 尖锐问题

问题 严重性 解决方案
问题 关键 # 测量和预算每个组件的延迟:
问题 # 目标抖动指标:
问题 # 使用语义VAD:
问题 # 实现打断检测:
问题 中等 # 在提示中约束响应长度:
问题 中等 # 提示为口语格式:
问题 中等 # 实现噪音处理:
问题 中等 # 减轻STT错误:

相关技能

与以下技能配合良好:agent-tool-builder, multi-agent-orchestration, llm-architect, backend