人工智能大语言模型工程技能 ai-llm

该技能专注于生产级大语言模型(LLM)系统的开发与工程,涵盖从架构选择、数据集设计、PEFT/LoRA微调、评估工作流到部署和生命周期运营的全过程。强调成本优化、安全控制和现代最佳实践,适用于构建、评估和部署LLM应用。关键词:LLM工程、大模型微调、RAG应用、AI智能体、成本控制、评估部署、生产标准、安全治理。

大模型微调 0 次安装 0 次浏览 更新于 3/7/2026

名称: ai-llm 描述: 生产LLM工程技能。覆盖策略选择(提示工程 vs RAG vs 微调)、数据集设计、PEFT/LoRA、评估工作流、部署到推理服务交接,以及具有成本/安全控制的生命周期运营。

LLM开发与工程 — 完整参考

现代生产标准构建、评估和部署LLM系统。

此技能覆盖完整的LLM生命周期:

  • 开发: 策略选择、数据集设计、指令调优、PEFT/LoRA微调
  • 评估: 自动化测试、LLM作为评判、指标、上线门控
  • 部署: 服务交接、延迟/成本预算、可靠性模式(见ai-llm-inference
  • 运营: 质量监控、变更管理、事件响应(见ai-mlops
  • 安全: 威胁建模、数据治理、分层缓解(NIST AI RMF: https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-1.pdf)

现代最佳实践(2026):

  • 将模型视为具有合同、预算和回滚计划的组件(而非“魔法”)。
  • 分离核心概念(分词、上下文、训练 vs 适应)与实现选择(提供商、SDK)。
  • 通过可重复评估和分阶段上线门控升级;避免盲目模型替换。
  • 成本感知工程: 测量每成功结果的成本,而不仅是每令牌成本;早期设计分层/缓存。
  • 安全设计: 威胁建模提示注入、数据泄露和工具滥用;将防护视为生产代码。

详细模式: 见下方资源模板部分。


快速参考

任务 工具/框架 命令/模式 何时使用
选择架构 提示工程 vs RAG vs 微调 从简单开始;仅在需要时添加检索/适应 新产品和迁移
模型选择 评分矩阵 质量/延迟/成本/隐私/许可证权重 提供商变更和采购
成本优化 分层模型 + 缓存 级联路由、提示缓存、预算防护 成本敏感的生产
微调ROI ROI计算器 盈亏平衡分析、总拥有成本比较 投资决策
提示合同 结构化输出 + 约束 JSON模式、最大令牌、拒绝规则 可靠性和集成
RAG集成 混合检索 + 接地 检索 → 重排 → 打包 → 引用 → 验证 新鲜/大型语料库、可追溯性
微调 PEFT/LoRA(当合理时) 小型目标数据集 + 回归套件 稳定领域、重复任务
评估 离线 + 在线 黄金集 + A/B + 金丝雀 + 监控 防止回归和漂移

决策树: LLM系统架构

构建LLM应用: [架构选择]
    ├─ 需要当前知识?
    │   ├─ 简单Q&A? → 基础RAG(页面级分块 + 混合检索)
    │   └─ 复杂检索? → 高级RAG(重排 + 上下文检索)
    │
    ├─ 需要使用工具/操作?
    │   ├─ 单任务? → 简单智能体(ReAct模式)
    │   └─ 多步骤工作流? → 多智能体(LangGraph, CrewAI)
    │
    ├─ 静态行为足够?
    │   ├─ 快速MVP? → 提示工程(CI/CD集成)
    │   └─ 生产质量? → 微调(PEFT/LoRA)
    │
    └─ 最佳结果?
        └─ 混合(RAG + 微调 + 智能体) → 全面解决方案

详见决策矩阵获取详细选择标准。


成本-质量决策框架

LLM支出由基于使用的推理(令牌/请求)加上支持基础设施和工程驱动。模型选择是成本-质量-延迟-风险权衡

模型分层策略

| 层级 | 典型配置 | 用途 | |------|--------|------|---------| | 价值 | 小型/快速模型 | 高量、简单任务 | | 平衡 | 通用模型 | 大多数生产工作负载 | | 高级 | 前沿/大型模型 | 最困难任务、低量 |

成本优化杠杆

  1. 模型分层: 将简单请求路由到更便宜的模型(大规模下常节省显著)
  2. 提示缓存: 重用稳定前缀/上下文(提供商特定折扣和约束)
  3. 提示优化: 压缩示例和指令(典型有意义的令牌减少)
  4. 输出限制: 设置适当的max_tokens(防止失控成本)

何时微调(基于ROI)

微调在以下情况有回报:

  • 量足以证明: >10k请求/月提供有意义的成本节省
  • 领域稳定: 需求>6个月未变
  • 数据存在: >1,000个质量训练示例可用
  • 可实现盈亏平衡: <12个月回收投资

详见成本经济学进行TCO建模和微调ROI计算器进行投资分析。


核心概念(供应商无关)

实现实践(工具示例)

  • 使用提供商抽象(网关/路由器)以启用回退和分阶段升级。
  • 用令牌、延迟和错误类别检测请求(OpenTelemetry GenAI语义约定: https://opentelemetry.io/docs/specs/semconv/gen-ai/)。
  • 维护提示/模型注册表,具有版本控制、变更日志和回滚标准。

做 / 避免

  • 在生产中固定模型 + 提示版本,并在任何变更前重新运行评估。
  • 在边界强制执行预算:最大令牌、最大工具、最大重试、最大成本。
  • 计划降级模式(更小模型、缓存答案、“无法回答”)。

避免

  • 避免模型蔓延(无评估覆盖的未拥有变体)。
  • 避免基于轶事质量的盲目升级;需要测量影响。
  • 避免在未经同意、治理和泄露控制的情况下在生产日志上训练。

何时使用此技能

Claude应在用户询问以下内容时调用此技能:

  • LLM预检/项目清单、生产最佳实践或数据管道
  • 构建或部署RAG、智能体或基于提示的LLM应用
  • 提示设计、链式思考(CoT)、ReAct或模板模式
  • 故障排除LLM幻觉、偏见、检索问题或生产故障
  • 评估LLM:基准、多指标评估或上线/监控
  • LLMOps:部署、回滚、扩展、资源优化
  • 技术栈选择(模型、向量数据库、框架)
  • 生产部署策略和操作模式

范围边界(使用这些技能深入)


资源(最佳实践与操作模式)

全面的操作指南,包含清单、模式和决策框架:

核心操作模式

  • 成本经济学与决策框架 - 成本建模、单位经济、TCO分析

    • 定价/折扣假设(验证当前提供商文档)
    • 成本-质量权衡框架和决策矩阵
    • 总拥有成本(TCO)计算
    • 微调ROI框架和盈亏平衡分析
    • 提示缓存经济学
    • 成本监控和预算防护
  • 项目规划模式 - 栈选择、FTI管道、性能预算

    • AI工程栈选择矩阵
    • 功能/训练/推理(FTI)管道蓝图
    • 性能预算和良好输出门控
    • 渐进复杂度(提示 → RAG → 微调 → 混合)
  • 生产清单 - 部署前验证和操作清单

    • LLM生命周期清单(现代生产标准)
    • 数据与训练、RAG管道、部署与服务
    • 安全/防护、评估、智能体系统
    • 可靠性与数据基础设施(DDIA级)
    • 每周生产任务
  • 常见设计模式 - 复制粘贴就绪实现示例

    • 链式思考(CoT)提示
    • ReAct(推理 + 操作)模式
    • RAG管道(从基础到高级)
    • 智能体规划循环
    • 自我反思和多智能体协作
  • 决策矩阵 - 快速参考表用于选择

    • RAG类型决策矩阵(基础 → 高级 → 模块化)
    • 生产评估表,包含目标和行动
    • 模型选择矩阵(基于层级、供应商无关)
    • 向量数据库、嵌入模型、框架选择
    • 部署策略矩阵
  • 反模式 - 常见错误和预防策略

    • 数据泄露、提示稀释、RAG上下文过载
    • 智能体失控、过度工程、忽略评估
    • 硬编码提示、缺少可观测性
    • 检测方法和预防代码示例

领域特定模式

注意: 每个资源文件包含预检/验证清单、复制粘贴参考表、内联模板、反模式和决策矩阵。


模板(复制粘贴就绪)

按用例和技术的生产模板:

选择与治理

RAG管道

  • 基础RAG - 简单检索增强生成
  • 高级RAG - 混合检索、重排、上下文嵌入

提示工程

智能体工作流

数据管道

部署

评估


共享实用程序(集中模式 — 提取,不重复)


趋势意识协议

重要: 对于“最佳/最新”推荐,使用当前来源(官方文档/发布说明/基准)验证新近性。如果无法浏览,声明假设并询问时间范围 + 约束。

触发条件

  • “对于[用例]最佳LLM模型是什么?”
  • “我应该用什么进行[RAG/微调/智能体]?”
  • “LLM开发的最新趋势是什么?”
  • “当前[提示工程/评估/部署]的最佳实践是什么?”
  • “[模型/框架]在2026年仍然相关吗?”
  • “[模型A] vs [模型B]?”或“[框架A] vs [框架B]?”
  • “对于[用例]最佳向量数据库是什么?”
  • “我应该用什么智能体框架?”

最小验证清单

  1. 确认用户约束:延迟、成本、隐私/合规、部署目标、工具链。
  2. 检查至少2个权威来源来自data/sources.json(提供商文档、发布说明、定价/配额、弃用)。
  3. 偏好稳定指导(权衡 + 决策标准)而非“一个最佳模型/框架”。

报告内容

搜索后提供:

  • 当前格局: 现在流行的模型/框架是什么(非6个月前)
  • 新兴趋势: 新模型、框架或技术获得关注
  • 弃用/衰退: 失去相关性或支持的模型/框架
  • 推荐: 基于新数据,而非静态知识

示例主题(验证新鲜来源)

  • 最新前沿模型(GPT-4.5, Claude 4, Gemini 2.x, Llama 4)
  • 智能体框架(LangGraph, CrewAI, AutoGen, Semantic Kernel)
  • 向量数据库(Pinecone, Qdrant, Weaviate, pgvector)
  • RAG技术(上下文检索、智能体RAG、图RAG)
  • 推理引擎(vLLM, TensorRT-LLM, SGLang)
  • 评估框架(RAGAS, DeepEval, Braintrust)

相关技能

此技能与互补Claude Code技能集成:

核心依赖

  • ai-rag - 检索管道:分块、混合搜索、重排、评估
  • ai-prompt-engineering - 系统化提示设计、评估、测试和优化
  • ai-agents - 智能体架构、工具使用、多智能体系统、自治工作流

生产与运营

  • ai-llm-inference - 生产服务、量化、批处理、GPU优化
  • ai-mlops - 部署、监控、事件响应、安全和治理

外部资源

data/sources.json 获取50+精选权威来源:

  • 官方LLM平台文档 - OpenAI, Anthropic, Gemini, Mistral, Azure OpenAI, AWS Bedrock
  • 开源模型和框架 - HuggingFace Transformers, 开放权重模型, PEFT/LoRA, 分布式训练/推理栈
  • RAG框架和向量数据库 - LlamaIndex, LangChain 1.2+, LangGraph, LangGraph Studio v2, Haystack, Pinecone, Qdrant, Chroma
  • 智能体框架(示例) - LangGraph, Semantic Kernel, AutoGen, CrewAI
  • RAG创新(示例) - 基于图的检索、混合检索、在线评估循环
  • 提示工程 - Anthropic提示库、提示工程指南、CoT/ReAct模式
  • 评估和监控 - OpenAI评估、HELM、Anthropic评估、LangSmith、W&B、Arize Phoenix
  • 生产部署 - 模型网关/路由器、自托管服务、管理端点

使用

对于新项目

  1. 从**生产清单**开始 — 验证所有部署前要求
  2. 使用**决策矩阵** — 选择技术栈
  3. 参考**项目规划模式** — 设计FTI管道
  4. 用**常见设计模式**实现 — 复制粘贴代码示例
  5. 避免**反模式** — 从常见错误学习

对于故障排除

  1. 检查**反模式** — 识别故障模式和缓解措施
  2. 使用**决策矩阵** — 评估架构是否适合用例
  3. 参考**常见设计模式** — 验证实现正确性

对于持续运营

  1. 遵循**生产清单** — 每周操作任务
  2. 集成**评估模式** — 持续质量监控
  3. 应用**LLMOps最佳实践** — 部署和回滚程序

导航摘要

快速决策: 决策矩阵 部署前: 生产清单 规划: 项目规划模式 实现: 常见设计模式 故障排除: 反模式

领域深度: LLMOps | 评估 | 提示 | 智能体 | RAG

模板: assets/ - 复制粘贴就绪生产代码

来源: data/sources.json - 权威文档链接