大模型服务Skill LLMServing(Alias)

该技能专注于大型语言模型的生产环境部署、服务化与运维管理。它涵盖了从本地模型部署、服务架构设计（如网关与推理节点分离）、请求路由编排，到性能监控（延迟、令牌、成本）、限流降级等全链路最佳实践。核心目标是构建高可用、可观测、成本可控的大模型服务系统。关键词：LLM服务化，大模型部署，AI服务架构，模型推理，生产化运维，可观测性，成本控制。

AI应用 0 次安装 4 次浏览更新于 3/5/2026

name: 大模型服务（别名） description: 大模型服务的别名技能路径；指向规范的模型/机器学习服务技能。

大模型服务

概述

这是一个别名技能，因此需求/文档可以引用 06-ai-ml-production/llm-serving。在本仓库中，服务指导被拆分到以下位置：

39-data-science-ml/ml-serving （服务模式）
06-ai-ml-production/llm-local-deployment （本地大模型部署）
06-ai-ml-production/llm-routing-orchestration （路由/编排）

最佳实践

将网关（认证/速率限制/配额）与推理工作节点（GPU密集型）分离。
标准化请求/响应格式和可观测性（延迟、令牌数、成本、错误）。
添加断路器/超时机制并优雅降级（备用模型/提供商）。

代码示例

# 规范引用：
39-data-science-ml/ml-serving/SKILL.md
06-ai-ml-production/llm-local-deployment/SKILL.md
06-ai-ml-production/llm-routing-orchestration/SKILL.md

检查清单

[ ] 定义推理API契约（超时、流式传输、错误处理）
[ ] 添加速率限制 + 成本控制
[ ] 监控延迟/令牌/成本 + 跟踪ID

参考资料

规范技能：39-data-science-ml/ml-serving/SKILL.md