LLM推理优化与生产技能 ai-llm-inference

本技能提供LLM推理的性能优化、成本控制和可靠服务操作模式,涵盖延迟预算、尾部延迟控制、缓存策略、批处理调度、量化压缩、并行性等关键领域。适用于优化推理延迟和吞吐量、选择量化方法、配置推理引擎、扩展GPU并行性、构建高吞吐量API等场景。关键词:LLM推理、性能优化、成本控制、生产部署、量化策略、并行计算、推理引擎、延迟降低。

AI应用 0 次安装 0 次浏览 更新于 3/7/2026

name: ai-llm-inference description: “LLM推理的操作模式:延迟预算、尾部延迟控制、缓存、批处理/调度、量化/压缩、并行性,以及大规模可靠服务。强调生产级性能、成本控制和可观测性。”

LLMOps - 推理与优化 - 生产技能中心

现代最佳实践(2026年1月):

本技能提供生产就绪的操作模式,用于优化LLM推理性能、成本和可靠性。它集中了推理工作负载的决策规则优化策略配置模板操作清单

无理论。无叙述。仅限Codex可执行内容。


何时使用此技能

当用户询问以下内容时,Codex应激活此技能:

  • 优化LLM推理延迟或吞吐量
  • 选择量化策略(FP8/FP4/INT8/INT4)
  • 配置vLLM、TensorRT-LLM或DeepSpeed推理
  • 跨GPU扩展LLM推理(张量/管道并行性)
  • 构建高吞吐量LLM API
  • 改进上下文窗口性能(KV缓存优化)
  • 使用推测解码以加速生成
  • 降低每令牌成本
  • 分析和基准测试推理工作负载
  • 规划基础设施容量
  • CPU/边缘部署模式
  • 高可用性和弹性模式

范围边界(使用这些技能以深入)


快速参考

任务 工具/框架 命令/模式 何时使用
延迟预算 SLO + 负载模型 TTFT/ITL + 负载下的P95/P99 任何生产端点
尾部延迟控制 调度 + 超时 准入控制 + 队列上限 + 背压 防止p99爆炸
吞吐量 批处理 + KV缓存感知服务 连续批处理 + KV分页 高并发服务
成本控制 模型分层 + 缓存 缓存(前缀/响应)+ 配额 减少支出和过载风险
长上下文 预填充优化 分块预填充 + 提示压缩 长输入和RAG重度应用
并行性 TP/PP/DP 根据模型大小和互连选择 不适合单个设备的模型
可靠性 弹性模式 超时 + 断路器 + 幂等性 避免级联故障

决策树:推理优化策略

需要优化LLM推理: [优化路径]
    │
    ├─ 高吞吐量 (>10k tok/s) 或 P99方差 > 3x P50?
    │   └─ 是 -> 分离式推理(预填充/解码分离)
    │            参见references/disaggregated-inference.md
    │
    ├─ 主要约束:吞吐量?
    │   ├─ 许多并发用户? -> 批处理 + KV缓存感知服务 + 准入控制
    │   ├─ 聊天/代理具有KV重用? -> SGLang (RadixAttention)
    │   └─ 主要是批量/离线? -> 批量推理作业 + 大批量 + 现货容量
    │
    ├─ 主要约束:成本?
    │   ├─ 可以接受较低质量层? -> 模型分层(小/中/大路由器)
    │   └─ 必须保持质量? -> 缓存 + 量化前的提示/上下文减少
    │
    ├─ 主要约束:延迟?
    │   ├─ 草稿模型可接受? -> 推测解码
    │   └─ 长上下文? -> 预填充优化 + FlashAttention-3 + 上下文预算
    │
    ├─ 大模型 (>70B)?
    │   ├─ 多个GPU? -> 张量并行性(需要NVLink)
    │   └─ 深度模型? -> 管道并行性(最小化气泡)
    │
    ├─ 硬件选择?
    │   ├─ 内存受限? -> 更多HBM,更高带宽
    │   ├─ 延迟受限? -> 更快时钟 + 内核支持
    │   └─ 多节点? -> 优先互连(NVLink/RDMA)和拓扑
    │
    │   注意:将GPU/SKU建议视为时间敏感;用供应商文档和您自己的基准验证。
    │   参见references/gpu-optimization-checklists.md和references/infrastructure-tuning.md
    │
    └─ 边缘部署?
        └─ CPU + 量化 -> llama.cpp/GGUF用于受限资源

输入清单(必需)

在推荐更改之前,收集(或推断)以下输入:

  • 模型 + 变体(大小、上下文长度、精度/量化、分词器)
  • 流量形状(提示/输出长度分布、并发性、QPS、流式与非流式)
  • SLOs和预算(TTFT/ITL/总延迟目标、错误预算、每请求成本)
  • 服务堆栈(引擎/版本、批处理/调度设置、缓存、并行性、自动扩展)
  • 硬件和拓扑(GPU类型/数量、VRAM、NVLink/RDMA、CPU/RAM、存储、集群/运行时)
  • 约束(质量下限、安全要求、推出/回滚约束)

核心概念与实践

核心概念(供应商无关)

  • 延迟组件:排队 + 预填充 + 解码;首先优化最大的贡献者。
  • 尾部延迟:p99由排队和长提示主导;用准入控制和上下文预算修复。
  • 重试:重试可以放大负载;限制重试并仅在严格预算下使用对冲请求。
  • 缓存:前缀缓存帮助重复系统/工具支架;响应缓存帮助重复问题(需要失效)。
  • 安全与隐私:提示/输出可能包含敏感数据;清理日志、强制认证/租户、和速率限制滥用(OWASP LLM Top 10:https://owasp.org/www-project-top-10-for-large-language-model-applications/)。

实施实践(工具示例)

  • 负载下测量:用现实并发性和提示长度基准测试TTFT/ITL和p95/p99。
  • 分离环境:开发/阶段/生产模型配置;仅在通过推理审查清单后推广。
  • 导出遥测:请求级令牌、TTFT/ITL、队列深度、GPU内存余量、和错误类(OpenTelemetry GenAI语义约定:https://opentelemetry.io/docs/specs/semconv/gen-ai/)。

做 / 避免

  • 在API边界强制执行max_input_tokensmax_output_tokens
  • 限制并发性和队列深度;快速返回过载错误。
  • 在任何量化或内核更改后验证质量。

避免

  • 避免无界重试(放大中断)。
  • 避免无界上下文窗口(OOM + 延迟峰值)。
  • 避免在单个请求上基准测试;始终用现实并发性测试。

准确性协议(必需)

  • 将性能比率(例如,“2x更快”)视为假设,除非引用来源且工作负载可比。
  • 不推荐硬件/SKU更改,除非说明假设(模型大小、上下文长度、并发性、互连)。
  • 偏好测量基线 + 清单驱动的推出而非“最佳实践”声明。

资源(详细操作指南)

有关特定主题的全面指南,参见:

基础设施与服务

性能优化

部署与操作


模板

推理配置

领先推理引擎的生产就绪配置模板:

量化与压缩

模型压缩模板以减少内存和成本:

服务流水线

高吞吐量服务架构:

缓存与批处理

性能优化模板:

基准测试

性能测量和验证:

清单

导航

资源

模板

数据


趋势意识协议

重要:当用户询问关于LLM推理的推荐问题时,您必须使用WebSearch检查当前趋势再回答。

触发条件

  • “对于[用例],最好的推理引擎是什么?”
  • “我应该用什么来进行[服务/量化/批处理]?”
  • “LLM推理优化的最新动态是什么?”
  • “[vLLM/TensorRT/量化]的当前最佳实践是什么?”
  • “在2026年,[推理工具]仍然相关吗?”
  • “[vLLM] vs [TensorRT-LLM] vs [SGLang]?”
  • “对于[模型大小],最好的量化方法是什么?”
  • “我应该用什么GPU进行推理?”

必需搜索

  1. 搜索:"LLM推理优化最佳实践 2026"
  2. 搜索:"[vLLM/TensorRT-LLM/SGLang] 比较 2026"
  3. 搜索:"LLM量化趋势 2026年1月"
  4. 搜索:"LLM服务新发布 2026"

报告内容

搜索后,提供:

  • 当前格局:现在流行的服务引擎(不是6个月前)
  • 新兴趋势:获得关注的新推理优化
  • 过时/衰退:失去相关性的技术或工具
  • 推荐:基于新鲜数据,而非仅静态知识

示例主题(用新鲜搜索验证)

  • 推理引擎(vLLM 0.7+、TensorRT-LLM、SGLang、llama.cpp)
  • 量化方法(FP8、AWQ、GPTQ、GGUF、bitsandbytes)
  • 注意力内核(FlashAttention-3、FlashInfer、xFormers)
  • 推测解码进展
  • KV缓存优化技术
  • 新GPU架构(H200、Blackwell)及其优化

相关技能

本技能专注于推理时性能。对于相关工作流:

  • 参见上面的“范围边界”。

外部资源

参见data/sources.json了解:

  • 服务框架(vLLM、TensorRT-LLM、DeepSpeed-MII)
  • 量化库(GPTQ、AWQ、bitsandbytes、LLM Compressor)
  • FlashAttention、FlashInfer、xFormers
  • GPU硬件指南和优化文档
  • 基准测试框架和工具

每当用户需要LLM推理性能、成本降低或服务架构指导时,请使用此技能。