名称: ai-llm 描述: 生产LLM工程技能。覆盖策略选择(提示工程 vs RAG vs 微调)、数据集设计、PEFT/LoRA、评估工作流、部署到推理服务交接,以及具有成本/安全控制的生命周期运营。
LLM开发与工程 — 完整参考
以现代生产标准构建、评估和部署LLM系统。
此技能覆盖完整的LLM生命周期:
- 开发: 策略选择、数据集设计、指令调优、PEFT/LoRA微调
- 评估: 自动化测试、LLM作为评判、指标、上线门控
- 部署: 服务交接、延迟/成本预算、可靠性模式(见
ai-llm-inference) - 运营: 质量监控、变更管理、事件响应(见
ai-mlops) - 安全: 威胁建模、数据治理、分层缓解(NIST AI RMF: https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-1.pdf)
现代最佳实践(2026):
- 将模型视为具有合同、预算和回滚计划的组件(而非“魔法”)。
- 分离核心概念(分词、上下文、训练 vs 适应)与实现选择(提供商、SDK)。
- 通过可重复评估和分阶段上线门控升级;避免盲目模型替换。
- 成本感知工程: 测量每成功结果的成本,而不仅是每令牌成本;早期设计分层/缓存。
- 安全设计: 威胁建模提示注入、数据泄露和工具滥用;将防护视为生产代码。
快速参考
| 任务 | 工具/框架 | 命令/模式 | 何时使用 |
|---|---|---|---|
| 选择架构 | 提示工程 vs RAG vs 微调 | 从简单开始;仅在需要时添加检索/适应 | 新产品和迁移 |
| 模型选择 | 评分矩阵 | 质量/延迟/成本/隐私/许可证权重 | 提供商变更和采购 |
| 成本优化 | 分层模型 + 缓存 | 级联路由、提示缓存、预算防护 | 成本敏感的生产 |
| 微调ROI | ROI计算器 | 盈亏平衡分析、总拥有成本比较 | 投资决策 |
| 提示合同 | 结构化输出 + 约束 | JSON模式、最大令牌、拒绝规则 | 可靠性和集成 |
| RAG集成 | 混合检索 + 接地 | 检索 → 重排 → 打包 → 引用 → 验证 | 新鲜/大型语料库、可追溯性 |
| 微调 | PEFT/LoRA(当合理时) | 小型目标数据集 + 回归套件 | 稳定领域、重复任务 |
| 评估 | 离线 + 在线 | 黄金集 + A/B + 金丝雀 + 监控 | 防止回归和漂移 |
决策树: LLM系统架构
构建LLM应用: [架构选择]
├─ 需要当前知识?
│ ├─ 简单Q&A? → 基础RAG(页面级分块 + 混合检索)
│ └─ 复杂检索? → 高级RAG(重排 + 上下文检索)
│
├─ 需要使用工具/操作?
│ ├─ 单任务? → 简单智能体(ReAct模式)
│ └─ 多步骤工作流? → 多智能体(LangGraph, CrewAI)
│
├─ 静态行为足够?
│ ├─ 快速MVP? → 提示工程(CI/CD集成)
│ └─ 生产质量? → 微调(PEFT/LoRA)
│
└─ 最佳结果?
└─ 混合(RAG + 微调 + 智能体) → 全面解决方案
详见决策矩阵获取详细选择标准。
成本-质量决策框架
LLM支出由基于使用的推理(令牌/请求)加上支持基础设施和工程驱动。模型选择是成本-质量-延迟-风险权衡。
模型分层策略
| 层级 | 典型配置 | 用途 | |------|--------|------|---------| | 价值 | 小型/快速模型 | 高量、简单任务 | | 平衡 | 通用模型 | 大多数生产工作负载 | | 高级 | 前沿/大型模型 | 最困难任务、低量 |
成本优化杠杆
- 模型分层: 将简单请求路由到更便宜的模型(大规模下常节省显著)
- 提示缓存: 重用稳定前缀/上下文(提供商特定折扣和约束)
- 提示优化: 压缩示例和指令(典型有意义的令牌减少)
- 输出限制: 设置适当的max_tokens(防止失控成本)
何时微调(基于ROI)
微调在以下情况有回报:
- 量足以证明: >10k请求/月提供有意义的成本节省
- 领域稳定: 需求>6个月未变
- 数据存在: >1,000个质量训练示例可用
- 可实现盈亏平衡: <12个月回收投资
详见成本经济学进行TCO建模和微调ROI计算器进行投资分析。
核心概念(供应商无关)
- 模型类别: 仅编码器、仅解码器、编码器-解码器、多模态;基于任务和延迟选择。
- 分词与限制: 上下文窗口、最大输出,以及提示/模板开销驱动成本和尾部延迟。
- 适应选项: 提示工程 → 检索 → 适配器(LoRA) → 完整微调;基于稳定性和ROI选择(LoRA: https://arxiv.org/abs/2106.09685)。
- 评估: 指标必须映射到用户价值;报告不确定性和切片性能,而不仅是全局平均。
- 治理: 数据保留、驻地、许可和可审计性是产品要求(欧盟AI法案: https://eur-lex.europa.eu/eli/reg/2024/1689/oj; NIST GenAI配置文件: https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.600-1.pdf)。
实现实践(工具示例)
- 使用提供商抽象(网关/路由器)以启用回退和分阶段升级。
- 用令牌、延迟和错误类别检测请求(OpenTelemetry GenAI语义约定: https://opentelemetry.io/docs/specs/semconv/gen-ai/)。
- 维护提示/模型注册表,具有版本控制、变更日志和回滚标准。
做 / 避免
做
- 在生产中固定模型 + 提示版本,并在任何变更前重新运行评估。
- 在边界强制执行预算:最大令牌、最大工具、最大重试、最大成本。
- 计划降级模式(更小模型、缓存答案、“无法回答”)。
避免
- 避免模型蔓延(无评估覆盖的未拥有变体)。
- 避免基于轶事质量的盲目升级;需要测量影响。
- 避免在未经同意、治理和泄露控制的情况下在生产日志上训练。
何时使用此技能
Claude应在用户询问以下内容时调用此技能:
- LLM预检/项目清单、生产最佳实践或数据管道
- 构建或部署RAG、智能体或基于提示的LLM应用
- 提示设计、链式思考(CoT)、ReAct或模板模式
- 故障排除LLM幻觉、偏见、检索问题或生产故障
- 评估LLM:基准、多指标评估或上线/监控
- LLMOps:部署、回滚、扩展、资源优化
- 技术栈选择(模型、向量数据库、框架)
- 生产部署策略和操作模式
范围边界(使用这些技能深入)
- 提示设计 & CI/CD → ai-prompt-engineering
- RAG管道 & 分块 → ai-rag
- 搜索调优(BM25, HNSW, 混合) → ai-rag
- 智能体架构 & 工具 → ai-agents
- 服务优化/量化 → ai-llm-inference
- 生产部署/监控 → ai-mlops
- 安全/防护 → ai-mlops
资源(最佳实践与操作模式)
全面的操作指南,包含清单、模式和决策框架:
核心操作模式
-
成本经济学与决策框架 - 成本建模、单位经济、TCO分析
- 定价/折扣假设(验证当前提供商文档)
- 成本-质量权衡框架和决策矩阵
- 总拥有成本(TCO)计算
- 微调ROI框架和盈亏平衡分析
- 提示缓存经济学
- 成本监控和预算防护
-
项目规划模式 - 栈选择、FTI管道、性能预算
- AI工程栈选择矩阵
- 功能/训练/推理(FTI)管道蓝图
- 性能预算和良好输出门控
- 渐进复杂度(提示 → RAG → 微调 → 混合)
-
生产清单 - 部署前验证和操作清单
- LLM生命周期清单(现代生产标准)
- 数据与训练、RAG管道、部署与服务
- 安全/防护、评估、智能体系统
- 可靠性与数据基础设施(DDIA级)
- 每周生产任务
-
常见设计模式 - 复制粘贴就绪实现示例
- 链式思考(CoT)提示
- ReAct(推理 + 操作)模式
- RAG管道(从基础到高级)
- 智能体规划循环
- 自我反思和多智能体协作
-
决策矩阵 - 快速参考表用于选择
- RAG类型决策矩阵(基础 → 高级 → 模块化)
- 生产评估表,包含目标和行动
- 模型选择矩阵(基于层级、供应商无关)
- 向量数据库、嵌入模型、框架选择
- 部署策略矩阵
-
反模式 - 常见错误和预防策略
- 数据泄露、提示稀释、RAG上下文过载
- 智能体失控、过度工程、忽略评估
- 硬编码提示、缺少可观测性
- 检测方法和预防代码示例
领域特定模式
- LLMOps最佳实践 - 操作生命周期和部署模式
- 评估模式 - 测试、指标和质量验证
- 提示工程模式 - 快速参考(规范技能: ai-prompt-engineering)
- 智能体模式 - 快速参考(规范技能: ai-agents)
- RAG最佳实践 - 快速参考(规范技能: ai-rag)
注意: 每个资源文件包含预检/验证清单、复制粘贴参考表、内联模板、反模式和决策矩阵。
模板(复制粘贴就绪)
按用例和技术的生产模板:
选择与治理
RAG管道
提示工程
智能体工作流
数据管道
- 数据质量 - 验证、去重、PII检测
部署
- LLM部署 - 带监控的生产部署
评估
- 多指标评估 - 全面测试套件
共享实用程序(集中模式 — 提取,不重复)
- …/software-clean-code-standard/utilities/llm-utilities.md — 令牌计数、流式处理、成本估计
- …/software-clean-code-standard/utilities/error-handling.md — Effect Result类型、相关ID
- …/software-clean-code-standard/utilities/resilience-utilities.md — p-retry v6、LLM API调用的熔断器
- …/software-clean-code-standard/utilities/logging-utilities.md — pino v9 + OpenTelemetry集成
- …/software-clean-code-standard/utilities/observability-utilities.md — OpenTelemetry SDK、跟踪、指标
- …/software-clean-code-standard/utilities/config-validation.md — Zod 3.24+、API密钥的机密管理
- …/software-clean-code-standard/utilities/testing-utilities.md — 测试工厂、固定装置、模拟
- …/software-clean-code-standard/references/clean-code-standard.md — 引用的规范清洁代码规则(
CC-*)
趋势意识协议
重要: 对于“最佳/最新”推荐,使用当前来源(官方文档/发布说明/基准)验证新近性。如果无法浏览,声明假设并询问时间范围 + 约束。
触发条件
- “对于[用例]最佳LLM模型是什么?”
- “我应该用什么进行[RAG/微调/智能体]?”
- “LLM开发的最新趋势是什么?”
- “当前[提示工程/评估/部署]的最佳实践是什么?”
- “[模型/框架]在2026年仍然相关吗?”
- “[模型A] vs [模型B]?”或“[框架A] vs [框架B]?”
- “对于[用例]最佳向量数据库是什么?”
- “我应该用什么智能体框架?”
最小验证清单
- 确认用户约束:延迟、成本、隐私/合规、部署目标、工具链。
- 检查至少2个权威来源来自
data/sources.json(提供商文档、发布说明、定价/配额、弃用)。 - 偏好稳定指导(权衡 + 决策标准)而非“一个最佳模型/框架”。
报告内容
搜索后提供:
- 当前格局: 现在流行的模型/框架是什么(非6个月前)
- 新兴趋势: 新模型、框架或技术获得关注
- 弃用/衰退: 失去相关性或支持的模型/框架
- 推荐: 基于新数据,而非静态知识
示例主题(验证新鲜来源)
- 最新前沿模型(GPT-4.5, Claude 4, Gemini 2.x, Llama 4)
- 智能体框架(LangGraph, CrewAI, AutoGen, Semantic Kernel)
- 向量数据库(Pinecone, Qdrant, Weaviate, pgvector)
- RAG技术(上下文检索、智能体RAG、图RAG)
- 推理引擎(vLLM, TensorRT-LLM, SGLang)
- 评估框架(RAGAS, DeepEval, Braintrust)
相关技能
此技能与互补Claude Code技能集成:
核心依赖
- ai-rag - 检索管道:分块、混合搜索、重排、评估
- ai-prompt-engineering - 系统化提示设计、评估、测试和优化
- ai-agents - 智能体架构、工具使用、多智能体系统、自治工作流
生产与运营
- ai-llm-inference - 生产服务、量化、批处理、GPU优化
- ai-mlops - 部署、监控、事件响应、安全和治理
外部资源
见 data/sources.json 获取50+精选权威来源:
- 官方LLM平台文档 - OpenAI, Anthropic, Gemini, Mistral, Azure OpenAI, AWS Bedrock
- 开源模型和框架 - HuggingFace Transformers, 开放权重模型, PEFT/LoRA, 分布式训练/推理栈
- RAG框架和向量数据库 - LlamaIndex, LangChain 1.2+, LangGraph, LangGraph Studio v2, Haystack, Pinecone, Qdrant, Chroma
- 智能体框架(示例) - LangGraph, Semantic Kernel, AutoGen, CrewAI
- RAG创新(示例) - 基于图的检索、混合检索、在线评估循环
- 提示工程 - Anthropic提示库、提示工程指南、CoT/ReAct模式
- 评估和监控 - OpenAI评估、HELM、Anthropic评估、LangSmith、W&B、Arize Phoenix
- 生产部署 - 模型网关/路由器、自托管服务、管理端点
使用
对于新项目
- 从**生产清单**开始 — 验证所有部署前要求
- 使用**决策矩阵** — 选择技术栈
- 参考**项目规划模式** — 设计FTI管道
- 用**常见设计模式**实现 — 复制粘贴代码示例
- 避免**反模式** — 从常见错误学习
对于故障排除
对于持续运营
- 遵循**生产清单** — 每周操作任务
- 集成**评估模式** — 持续质量监控
- 应用**LLMOps最佳实践** — 部署和回滚程序
导航摘要
快速决策: 决策矩阵 部署前: 生产清单 规划: 项目规划模式 实现: 常见设计模式 故障排除: 反模式
领域深度: LLMOps | 评估 | 提示 | 智能体 | RAG
模板: assets/ - 复制粘贴就绪生产代码
来源: data/sources.json - 权威文档链接