name: 大模型服务(别名) description: 大模型服务的别名技能路径;指向规范的模型/机器学习服务技能。
大模型服务
概述
这是一个别名技能,因此需求/文档可以引用 06-ai-ml-production/llm-serving。在本仓库中,服务指导被拆分到以下位置:
39-data-science-ml/ml-serving(服务模式)06-ai-ml-production/llm-local-deployment(本地大模型部署)06-ai-ml-production/llm-routing-orchestration(路由/编排)
最佳实践
- 将网关(认证/速率限制/配额)与推理工作节点(GPU密集型)分离。
- 标准化请求/响应格式和可观测性(延迟、令牌数、成本、错误)。
- 添加断路器/超时机制并优雅降级(备用模型/提供商)。
代码示例
# 规范引用:
39-data-science-ml/ml-serving/SKILL.md
06-ai-ml-production/llm-local-deployment/SKILL.md
06-ai-ml-production/llm-routing-orchestration/SKILL.md
检查清单
- [ ] 定义推理API契约(超时、流式传输、错误处理)
- [ ] 添加速率限制 + 成本控制
- [ ] 监控延迟/令牌/成本 + 跟踪ID
参考资料
- 规范技能:
39-data-science-ml/ml-serving/SKILL.md