名称: ai-llm 描述: 生产LLM工程技能。覆盖策略选择（提示工程 vs RAG vs 微调）、数据集设计、PEFT/LoRA、评估工作流、部署到推理服务交接，以及具有成本/安全控制的生命周期运营。

LLM开发与工程 — 完整参考

以现代生产标准构建、评估和部署LLM系统。

此技能覆盖完整的LLM生命周期：

开发: 策略选择、数据集设计、指令调优、PEFT/LoRA微调
评估: 自动化测试、LLM作为评判、指标、上线门控
部署: 服务交接、延迟/成本预算、可靠性模式（见ai-llm-inference）
运营: 质量监控、变更管理、事件响应（见ai-mlops）
安全: 威胁建模、数据治理、分层缓解（NIST AI RMF: https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-1.pdf）

现代最佳实践（2026）:

将模型视为具有合同、预算和回滚计划的组件（而非“魔法”）。
分离核心概念（分词、上下文、训练 vs 适应）与实现选择（提供商、SDK）。
通过可重复评估和分阶段上线门控升级；避免盲目模型替换。
成本感知工程: 测量每成功结果的成本，而不仅是每令牌成本；早期设计分层/缓存。
安全设计: 威胁建模提示注入、数据泄露和工具滥用；将防护视为生产代码。

详细模式: 见下方资源和模板部分。

快速参考

任务	工具/框架	命令/模式	何时使用
选择架构	提示工程 vs RAG vs 微调	从简单开始；仅在需要时添加检索/适应	新产品和迁移
模型选择	评分矩阵	质量/延迟/成本/隐私/许可证权重	提供商变更和采购
成本优化	分层模型 + 缓存	级联路由、提示缓存、预算防护	成本敏感的生产
微调ROI	ROI计算器	盈亏平衡分析、总拥有成本比较	投资决策
提示合同	结构化输出 + 约束	JSON模式、最大令牌、拒绝规则	可靠性和集成
RAG集成	混合检索 + 接地	检索 → 重排 → 打包 → 引用 → 验证	新鲜/大型语料库、可追溯性
微调	PEFT/LoRA（当合理时）	小型目标数据集 + 回归套件	稳定领域、重复任务
评估	离线 + 在线	黄金集 + A/B + 金丝雀 + 监控	防止回归和漂移

决策树: LLM系统架构

构建LLM应用: [架构选择]
    ├─ 需要当前知识？
    │   ├─ 简单Q&A？ → 基础RAG（页面级分块 + 混合检索）
    │   └─ 复杂检索？ → 高级RAG（重排 + 上下文检索）
    │
    ├─ 需要使用工具/操作？
    │   ├─ 单任务？ → 简单智能体（ReAct模式）
    │   └─ 多步骤工作流？ → 多智能体（LangGraph, CrewAI）
    │
    ├─ 静态行为足够？
    │   ├─ 快速MVP？ → 提示工程（CI/CD集成）
    │   └─ 生产质量？ → 微调（PEFT/LoRA）
    │
    └─ 最佳结果？
        └─ 混合（RAG + 微调 + 智能体） → 全面解决方案

详见决策矩阵获取详细选择标准。

成本-质量决策框架

LLM支出由基于使用的推理（令牌/请求）加上支持基础设施和工程驱动。模型选择是成本-质量-延迟-风险权衡。

模型分层策略

| 层级 | 典型配置 | 用途 | |------|--------|------|---------| | 价值 | 小型/快速模型 | 高量、简单任务 | | 平衡 | 通用模型 | 大多数生产工作负载 | | 高级 | 前沿/大型模型 | 最困难任务、低量 |

成本优化杠杆

模型分层: 将简单请求路由到更便宜的模型（大规模下常节省显著）
提示缓存: 重用稳定前缀/上下文（提供商特定折扣和约束）
提示优化: 压缩示例和指令（典型有意义的令牌减少）
输出限制: 设置适当的max_tokens（防止失控成本）

何时微调（基于ROI）

微调在以下情况有回报：

量足以证明: >10k请求/月提供有意义的成本节省
领域稳定: 需求>6个月未变
数据存在: >1,000个质量训练示例可用
可实现盈亏平衡: <12个月回收投资

详见成本经济学进行TCO建模和微调ROI计算器进行投资分析。

核心概念（供应商无关）

模型类别: 仅编码器、仅解码器、编码器-解码器、多模态；基于任务和延迟选择。
分词与限制: 上下文窗口、最大输出，以及提示/模板开销驱动成本和尾部延迟。
适应选项: 提示工程 → 检索 → 适配器（LoRA） → 完整微调；基于稳定性和ROI选择（LoRA: https://arxiv.org/abs/2106.09685）。
评估: 指标必须映射到用户价值；报告不确定性和切片性能，而不仅是全局平均。
治理: 数据保留、驻地、许可和可审计性是产品要求（欧盟AI法案: https://eur-lex.europa.eu/eli/reg/2024/1689/oj; NIST GenAI配置文件: https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.600-1.pdf）。

实现实践（工具示例）

使用提供商抽象（网关/路由器）以启用回退和分阶段升级。
用令牌、延迟和错误类别检测请求（OpenTelemetry GenAI语义约定: https://opentelemetry.io/docs/specs/semconv/gen-ai/）。
维护提示/模型注册表，具有版本控制、变更日志和回滚标准。

做 / 避免

做

在生产中固定模型 + 提示版本，并在任何变更前重新运行评估。
在边界强制执行预算：最大令牌、最大工具、最大重试、最大成本。
计划降级模式（更小模型、缓存答案、“无法回答”）。

避免

避免模型蔓延（无评估覆盖的未拥有变体）。
避免基于轶事质量的盲目升级；需要测量影响。
避免在未经同意、治理和泄露控制的情况下在生产日志上训练。

何时使用此技能

Claude应在用户询问以下内容时调用此技能：

LLM预检/项目清单、生产最佳实践或数据管道
构建或部署RAG、智能体或基于提示的LLM应用
提示设计、链式思考（CoT）、ReAct或模板模式
故障排除LLM幻觉、偏见、检索问题或生产故障
评估LLM：基准、多指标评估或上线/监控
LLMOps：部署、回滚、扩展、资源优化
技术栈选择（模型、向量数据库、框架）
生产部署策略和操作模式

范围边界（使用这些技能深入）

提示设计 & CI/CD → ai-prompt-engineering
RAG管道 & 分块 → ai-rag
搜索调优（BM25, HNSW, 混合） → ai-rag
智能体架构 & 工具 → ai-agents
服务优化/量化 → ai-llm-inference
生产部署/监控 → ai-mlops
安全/防护 → ai-mlops

资源（最佳实践与操作模式）

全面的操作指南，包含清单、模式和决策框架：

核心操作模式

成本经济学与决策框架 - 成本建模、单位经济、TCO分析
- 定价/折扣假设（验证当前提供商文档）
- 成本-质量权衡框架和决策矩阵
- 总拥有成本（TCO）计算
- 微调ROI框架和盈亏平衡分析
- 提示缓存经济学
- 成本监控和预算防护
项目规划模式 - 栈选择、FTI管道、性能预算
- AI工程栈选择矩阵
- 功能/训练/推理（FTI）管道蓝图
- 性能预算和良好输出门控
- 渐进复杂度（提示 → RAG → 微调 → 混合）
生产清单 - 部署前验证和操作清单
- LLM生命周期清单（现代生产标准）
- 数据与训练、RAG管道、部署与服务
- 安全/防护、评估、智能体系统
- 可靠性与数据基础设施（DDIA级）
- 每周生产任务
常见设计模式 - 复制粘贴就绪实现示例
- 链式思考（CoT）提示
- ReAct（推理 + 操作）模式
- RAG管道（从基础到高级）
- 智能体规划循环
- 自我反思和多智能体协作
决策矩阵 - 快速参考表用于选择
- RAG类型决策矩阵（基础 → 高级 → 模块化）
- 生产评估表，包含目标和行动
- 模型选择矩阵（基于层级、供应商无关）
- 向量数据库、嵌入模型、框架选择
- 部署策略矩阵
反模式 - 常见错误和预防策略
- 数据泄露、提示稀释、RAG上下文过载
- 智能体失控、过度工程、忽略评估
- 硬编码提示、缺少可观测性
- 检测方法和预防代码示例

领域特定模式

LLMOps最佳实践 - 操作生命周期和部署模式
评估模式 - 测试、指标和质量验证
提示工程模式 - 快速参考（规范技能: ai-prompt-engineering）
智能体模式 - 快速参考（规范技能: ai-agents）
RAG最佳实践 - 快速参考（规范技能: ai-rag）

注意: 每个资源文件包含预检/验证清单、复制粘贴参考表、内联模板、反模式和决策矩阵。

模板（复制粘贴就绪）

按用例和技术的生产模板：

选择与治理

模型选择矩阵 - 文档化选择、评分、许可和治理
微调ROI计算器 - 投资分析、盈亏平衡、去/不去决策

RAG管道

基础RAG - 简单检索增强生成
高级RAG - 混合检索、重排、上下文嵌入

提示工程

链式思考 - 逐步推理模式
ReAct - 推理 + 操作用于工具使用

智能体工作流

反思智能体 - 自我批评和改进
多智能体 - 管理者-工作者编排

数据管道

数据质量 - 验证、去重、PII检测

部署

LLM部署 - 带监控的生产部署

评估

多指标评估 - 全面测试套件

共享实用程序（集中模式 — 提取，不重复）

…/software-clean-code-standard/utilities/llm-utilities.md — 令牌计数、流式处理、成本估计
…/software-clean-code-standard/utilities/error-handling.md — Effect Result类型、相关ID
…/software-clean-code-standard/utilities/resilience-utilities.md — p-retry v6、LLM API调用的熔断器
…/software-clean-code-standard/utilities/logging-utilities.md — pino v9 + OpenTelemetry集成
…/software-clean-code-standard/utilities/observability-utilities.md — OpenTelemetry SDK、跟踪、指标
…/software-clean-code-standard/utilities/config-validation.md — Zod 3.24+、API密钥的机密管理
…/software-clean-code-standard/utilities/testing-utilities.md — 测试工厂、固定装置、模拟
…/software-clean-code-standard/references/clean-code-standard.md — 引用的规范清洁代码规则（CC-*）

趋势意识协议

重要: 对于“最佳/最新”推荐，使用当前来源（官方文档/发布说明/基准）验证新近性。如果无法浏览，声明假设并询问时间范围 + 约束。

触发条件

“对于[用例]最佳LLM模型是什么？”
“我应该用什么进行[RAG/微调/智能体]？”
“LLM开发的最新趋势是什么？”
“当前[提示工程/评估/部署]的最佳实践是什么？”
“[模型/框架]在2026年仍然相关吗？”
“[模型A] vs [模型B]？”或“[框架A] vs [框架B]？”
“对于[用例]最佳向量数据库是什么？”
“我应该用什么智能体框架？”

最小验证清单

确认用户约束：延迟、成本、隐私/合规、部署目标、工具链。
检查至少2个权威来源来自data/sources.json（提供商文档、发布说明、定价/配额、弃用）。
偏好稳定指导（权衡 + 决策标准）而非“一个最佳模型/框架”。

报告内容

搜索后提供：

当前格局: 现在流行的模型/框架是什么（非6个月前）
新兴趋势: 新模型、框架或技术获得关注
弃用/衰退: 失去相关性或支持的模型/框架
推荐: 基于新数据，而非静态知识

示例主题（验证新鲜来源）

最新前沿模型（GPT-4.5, Claude 4, Gemini 2.x, Llama 4）
智能体框架（LangGraph, CrewAI, AutoGen, Semantic Kernel）
向量数据库（Pinecone, Qdrant, Weaviate, pgvector）
RAG技术（上下文检索、智能体RAG、图RAG）
推理引擎（vLLM, TensorRT-LLM, SGLang）
评估框架（RAGAS, DeepEval, Braintrust）

外部资源

见 data/sources.json 获取50+精选权威来源：

官方LLM平台文档 - OpenAI, Anthropic, Gemini, Mistral, Azure OpenAI, AWS Bedrock
开源模型和框架 - HuggingFace Transformers, 开放权重模型, PEFT/LoRA, 分布式训练/推理栈
RAG框架和向量数据库 - LlamaIndex, LangChain 1.2+, LangGraph, LangGraph Studio v2, Haystack, Pinecone, Qdrant, Chroma
智能体框架（示例） - LangGraph, Semantic Kernel, AutoGen, CrewAI
RAG创新（示例） - 基于图的检索、混合检索、在线评估循环
提示工程 - Anthropic提示库、提示工程指南、CoT/ReAct模式
评估和监控 - OpenAI评估、HELM、Anthropic评估、LangSmith、W&B、Arize Phoenix
生产部署 - 模型网关/路由器、自托管服务、管理端点

使用

对于新项目

从**生产清单**开始 — 验证所有部署前要求
使用**决策矩阵** — 选择技术栈
参考**项目规划模式** — 设计FTI管道
用**常见设计模式**实现 — 复制粘贴代码示例
避免**反模式** — 从常见错误学习

对于故障排除

检查**反模式** — 识别故障模式和缓解措施
使用**决策矩阵** — 评估架构是否适合用例
参考**常见设计模式** — 验证实现正确性

对于持续运营

遵循**生产清单** — 每周操作任务
集成**评估模式** — 持续质量监控
应用**LLMOps最佳实践** — 部署和回滚程序

导航摘要

快速决策: 决策矩阵 部署前: 生产清单 规划: 项目规划模式 实现: 常见设计模式 故障排除: 反模式

领域深度: LLMOps | 评估 | 提示 | 智能体 | RAG

模板: assets/ - 复制粘贴就绪生产代码

来源: data/sources.json - 权威文档链接

人工智能大语言模型工程技能Skill ai-llm