大模型服务 LLMServing(Alias)

该技能专注于大型语言模型的生产环境部署、服务化与运维管理。它涵盖了从本地模型部署、服务架构设计(如网关与推理节点分离)、请求路由编排,到性能监控(延迟、令牌、成本)、限流降级等全链路最佳实践。核心目标是构建高可用、可观测、成本可控的大模型服务系统。关键词:LLM服务化,大模型部署,AI服务架构,模型推理,生产化运维,可观测性,成本控制。

AI应用 0 次安装 0 次浏览 更新于 3/5/2026

name: 大模型服务(别名) description: 大模型服务的别名技能路径;指向规范的模型/机器学习服务技能。

大模型服务

概述

这是一个别名技能,因此需求/文档可以引用 06-ai-ml-production/llm-serving。在本仓库中,服务指导被拆分到以下位置:

  • 39-data-science-ml/ml-serving (服务模式)
  • 06-ai-ml-production/llm-local-deployment (本地大模型部署)
  • 06-ai-ml-production/llm-routing-orchestration (路由/编排)

最佳实践

  • 网关(认证/速率限制/配额)与推理工作节点(GPU密集型)分离。
  • 标准化请求/响应格式和可观测性(延迟、令牌数、成本、错误)。
  • 添加断路器/超时机制并优雅降级(备用模型/提供商)。

代码示例

# 规范引用:
39-data-science-ml/ml-serving/SKILL.md
06-ai-ml-production/llm-local-deployment/SKILL.md
06-ai-ml-production/llm-routing-orchestration/SKILL.md

检查清单

  • [ ] 定义推理API契约(超时、流式传输、错误处理)
  • [ ] 添加速率限制 + 成本控制
  • [ ] 监控延迟/令牌/成本 + 跟踪ID

参考资料

  • 规范技能:39-data-science-ml/ml-serving/SKILL.md