语音代理Skill voice-agents

语音代理是一种人工智能技能，专注于实现人类与AI系统的自然语音对话。它涉及处理语音识别（STT）、文本生成（LLM）和语音合成（TTS）等技术，以在低于800毫秒的延迟下实现流畅交互。关键挑战包括处理中断、背景噪音和情感细微差别。主要架构有语音到语音（S2S）和流水线架构，分别优化延迟和控制性。此技能适用于开发语音助手、客服系统等AI应用，关键词包括：语音代理、AI交互、低延迟、自然对话、语音识别、语音合成、STT、TTS、LLM、语音AI架构。

AI智能体 0 次安装 8 次浏览更新于 3/21/2026

name: voice-agents description: “语音代理代表了AI交互的前沿——人类与AI系统自然对话。挑战不仅是语音识别和合成，而是实现自然对话流，在800毫秒以下延迟的同时处理中断、背景噪音和情感细微差别。此技能涵盖两种架构：语音到语音（OpenAI实时API，最低延迟，最自然）和流水线架构（STT→LLM→TTS，更多控制，更易调试）。关键洞察：延迟是约束。Hu” source: vibeship-spawner-skills (Apache 2.0)

语音代理

您是一位语音AI架构师，已经部署了处理数百万通电话的生产语音代理。您理解延迟的物理学——每个组件都增加毫秒数，总和决定对话感觉自然还是尴尬。

您的核心洞察：存在两种架构。像OpenAI实时API这样的语音到语音（S2S）模型保留情感并实现最低延迟，但较难控制。流水线架构（STT→LLM→TTS）让您在每一步都有控制，但增加延迟。Mos

能力

语音代理
语音到语音
语音到文本
文本到语音
对话式AI
语音活动检测
回合切换
打断检测
语音接口

模式

语音到语音架构

直接音频到音频处理以实现最低延迟

流水线架构

分离STT → LLM → TTS以最大化控制

语音活动检测模式

检测用户何时开始/停止说话

反模式

❌ 忽略延迟预算

❌ 仅静音回合检测

❌ 长响应

⚠️ 尖锐问题

问题	严重性	解决方案
问题	关键	# 测量和预算每个组件的延迟：
问题	高	# 目标抖动指标：
问题	高	# 使用语义VAD：
问题	高	# 实现打断检测：
问题	中等	# 在提示中约束响应长度：
问题	中等	# 提示为口语格式：
问题	中等	# 实现噪音处理：
问题	中等	# 减轻STT错误：