name: ai-llm-inference description: “LLM推理的操作模式:延迟预算、尾部延迟控制、缓存、批处理/调度、量化/压缩、并行性,以及大规模可靠服务。强调生产级性能、成本控制和可观测性。”
LLMOps - 推理与优化 - 生产技能中心
现代最佳实践(2026年1月):
- 将推理视为系统问题:SLOs、尾部延迟、重试、过载和缓存策略。
- 当服务许多并发请求时,使用连续批处理/智能调度(Orca调度:https://www.usenix.org/conference/osdi22/presentation/yu)。
- 使用KV缓存感知服务(PagedAttention/vLLM:https://arxiv.org/abs/2309.06180)和**高效注意力内核**(FlashAttention:https://arxiv.org/abs/2205.14135)。
- 当延迟关键且草稿模型质量可接受时,使用推测解码(推测解码:https://arxiv.org/abs/2302.01318)。
- 仅在使用测量的质量影响和回滚计划后进行量化(量化必须在您的评估集上验证)。
本技能提供生产就绪的操作模式,用于优化LLM推理性能、成本和可靠性。它集中了推理工作负载的决策规则、优化策略、配置模板和操作清单。
无理论。无叙述。仅限Codex可执行内容。
何时使用此技能
当用户询问以下内容时,Codex应激活此技能:
- 优化LLM推理延迟或吞吐量
- 选择量化策略(FP8/FP4/INT8/INT4)
- 配置vLLM、TensorRT-LLM或DeepSpeed推理
- 跨GPU扩展LLM推理(张量/管道并行性)
- 构建高吞吐量LLM API
- 改进上下文窗口性能(KV缓存优化)
- 使用推测解码以加速生成
- 降低每令牌成本
- 分析和基准测试推理工作负载
- 规划基础设施容量
- CPU/边缘部署模式
- 高可用性和弹性模式
范围边界(使用这些技能以深入)
- 提示、调优、数据集 -> ai-llm
- RAG流水线构建 -> ai-rag
- 部署、API、监控 -> ai-mlops
- 安全性、治理 -> ai-mlops
- 性能监控 -> qa-observability
- 基础设施操作 -> ops-devops-platform
快速参考
| 任务 | 工具/框架 | 命令/模式 | 何时使用 |
|---|---|---|---|
| 延迟预算 | SLO + 负载模型 | TTFT/ITL + 负载下的P95/P99 | 任何生产端点 |
| 尾部延迟控制 | 调度 + 超时 | 准入控制 + 队列上限 + 背压 | 防止p99爆炸 |
| 吞吐量 | 批处理 + KV缓存感知服务 | 连续批处理 + KV分页 | 高并发服务 |
| 成本控制 | 模型分层 + 缓存 | 缓存(前缀/响应)+ 配额 | 减少支出和过载风险 |
| 长上下文 | 预填充优化 | 分块预填充 + 提示压缩 | 长输入和RAG重度应用 |
| 并行性 | TP/PP/DP | 根据模型大小和互连选择 | 不适合单个设备的模型 |
| 可靠性 | 弹性模式 | 超时 + 断路器 + 幂等性 | 避免级联故障 |
决策树:推理优化策略
需要优化LLM推理: [优化路径]
│
├─ 高吞吐量 (>10k tok/s) 或 P99方差 > 3x P50?
│ └─ 是 -> 分离式推理(预填充/解码分离)
│ 参见references/disaggregated-inference.md
│
├─ 主要约束:吞吐量?
│ ├─ 许多并发用户? -> 批处理 + KV缓存感知服务 + 准入控制
│ ├─ 聊天/代理具有KV重用? -> SGLang (RadixAttention)
│ └─ 主要是批量/离线? -> 批量推理作业 + 大批量 + 现货容量
│
├─ 主要约束:成本?
│ ├─ 可以接受较低质量层? -> 模型分层(小/中/大路由器)
│ └─ 必须保持质量? -> 缓存 + 量化前的提示/上下文减少
│
├─ 主要约束:延迟?
│ ├─ 草稿模型可接受? -> 推测解码
│ └─ 长上下文? -> 预填充优化 + FlashAttention-3 + 上下文预算
│
├─ 大模型 (>70B)?
│ ├─ 多个GPU? -> 张量并行性(需要NVLink)
│ └─ 深度模型? -> 管道并行性(最小化气泡)
│
├─ 硬件选择?
│ ├─ 内存受限? -> 更多HBM,更高带宽
│ ├─ 延迟受限? -> 更快时钟 + 内核支持
│ └─ 多节点? -> 优先互连(NVLink/RDMA)和拓扑
│
│ 注意:将GPU/SKU建议视为时间敏感;用供应商文档和您自己的基准验证。
│ 参见references/gpu-optimization-checklists.md和references/infrastructure-tuning.md
│
└─ 边缘部署?
└─ CPU + 量化 -> llama.cpp/GGUF用于受限资源
输入清单(必需)
在推荐更改之前,收集(或推断)以下输入:
- 模型 + 变体(大小、上下文长度、精度/量化、分词器)
- 流量形状(提示/输出长度分布、并发性、QPS、流式与非流式)
- SLOs和预算(TTFT/ITL/总延迟目标、错误预算、每请求成本)
- 服务堆栈(引擎/版本、批处理/调度设置、缓存、并行性、自动扩展)
- 硬件和拓扑(GPU类型/数量、VRAM、NVLink/RDMA、CPU/RAM、存储、集群/运行时)
- 约束(质量下限、安全要求、推出/回滚约束)
核心概念与实践
核心概念(供应商无关)
- 延迟组件:排队 + 预填充 + 解码;首先优化最大的贡献者。
- 尾部延迟:p99由排队和长提示主导;用准入控制和上下文预算修复。
- 重试:重试可以放大负载;限制重试并仅在严格预算下使用对冲请求。
- 缓存:前缀缓存帮助重复系统/工具支架;响应缓存帮助重复问题(需要失效)。
- 安全与隐私:提示/输出可能包含敏感数据;清理日志、强制认证/租户、和速率限制滥用(OWASP LLM Top 10:https://owasp.org/www-project-top-10-for-large-language-model-applications/)。
实施实践(工具示例)
- 负载下测量:用现实并发性和提示长度基准测试TTFT/ITL和p95/p99。
- 分离环境:开发/阶段/生产模型配置;仅在通过推理审查清单后推广。
- 导出遥测:请求级令牌、TTFT/ITL、队列深度、GPU内存余量、和错误类(OpenTelemetry GenAI语义约定:https://opentelemetry.io/docs/specs/semconv/gen-ai/)。
做 / 避免
做
- 在API边界强制执行
max_input_tokens和max_output_tokens。 - 限制并发性和队列深度;快速返回过载错误。
- 在任何量化或内核更改后验证质量。
避免
- 避免无界重试(放大中断)。
- 避免无界上下文窗口(OOM + 延迟峰值)。
- 避免在单个请求上基准测试;始终用现实并发性测试。
准确性协议(必需)
- 将性能比率(例如,“2x更快”)视为假设,除非引用来源且工作负载可比。
- 不推荐硬件/SKU更改,除非说明假设(模型大小、上下文长度、并发性、互连)。
- 偏好测量基线 + 清单驱动的推出而非“最佳实践”声明。
资源(详细操作指南)
有关特定主题的全面指南,参见:
基础设施与服务
- 分离式推理 - 预填充/解码分离(2025+标准)
- 基础设施调优 - OS、容器、Kubernetes GPU工作负载优化
- 服务架构 - 生产服务堆栈模式(vLLM、SGLang、TensorRT-LLM、NVIDIA Dynamo)
- 弹性与HA模式 - 多区域、故障转移、流量管理
性能优化
- 量化模式 - FP8/FP4/INT8/INT4决策树(FP8优先,INT8不在Blackwell上)
- KV缓存优化 - PagedAttention、FlashAttention-3、FlashInfer、RadixAttention
- 并行性模式 - 张量/管道/专家并行性策略
- 优化策略 - 吞吐量、成本、内存优化
- 批处理与调度 - 连续批处理和吞吐量模式
部署与操作
模板
推理配置
领先推理引擎的生产就绪配置模板:
- vLLM配置 - 连续批处理、PagedAttention设置
- TensorRT-LLM配置 - NVIDIA内核优化
- DeepSpeed推理 - PyTorch友好推理
量化与压缩
模型压缩模板以减少内存和成本:
服务流水线
高吞吐量服务架构:
- LLM API服务器 - FastAPI + vLLM生产设置
- 高吞吐量设置 - 多副本扩展模式
缓存与批处理
性能优化模板:
基准测试
性能测量和验证:
- 延迟与吞吐量测试 - 负载测试框架
清单
- 推理性能审查清单 - 基线、瓶颈、推出准备度
导航
资源
- references/disaggregated-inference.md
- references/serving-architectures.md
- references/profiling-and-capacity-planning.md
- references/gpu-optimization-checklists.md
- references/speculative-decoding-guide.md
- references/resilience-ha-patterns.md
- references/optimization-strategies.md
- references/kv-cache-optimization.md
- references/batching-and-scheduling.md
- references/quantization-patterns.md
- references/parallelism-patterns.md
- references/edge-cpu-optimization.md
- references/infrastructure-tuning.md
模板
- assets/serving/template-llm-api.md
- assets/serving/template-high-throughput-setup.md
- assets/inference/template-vllm-config.md
- assets/inference/template-tensorrtllm-config.md
- assets/inference/template-deepspeed-inference.md
- assets/quantization/template-awq.md
- assets/quantization/template-gptq.md
- assets/quantization/template-gguf.md
- assets/batching/template-batching-config.md
- assets/caching/template-prefix-caching.md
- assets/benchmarking/template-latency-throughput-test.md
- assets/checklists/inference-review-checklist.md
数据
- data/sources.json - 精选外部引用
趋势意识协议
重要:当用户询问关于LLM推理的推荐问题时,您必须使用WebSearch检查当前趋势再回答。
触发条件
- “对于[用例],最好的推理引擎是什么?”
- “我应该用什么来进行[服务/量化/批处理]?”
- “LLM推理优化的最新动态是什么?”
- “[vLLM/TensorRT/量化]的当前最佳实践是什么?”
- “在2026年,[推理工具]仍然相关吗?”
- “[vLLM] vs [TensorRT-LLM] vs [SGLang]?”
- “对于[模型大小],最好的量化方法是什么?”
- “我应该用什么GPU进行推理?”
必需搜索
- 搜索:
"LLM推理优化最佳实践 2026" - 搜索:
"[vLLM/TensorRT-LLM/SGLang] 比较 2026" - 搜索:
"LLM量化趋势 2026年1月" - 搜索:
"LLM服务新发布 2026"
报告内容
搜索后,提供:
- 当前格局:现在流行的服务引擎(不是6个月前)
- 新兴趋势:获得关注的新推理优化
- 过时/衰退:失去相关性的技术或工具
- 推荐:基于新鲜数据,而非仅静态知识
示例主题(用新鲜搜索验证)
- 推理引擎(vLLM 0.7+、TensorRT-LLM、SGLang、llama.cpp)
- 量化方法(FP8、AWQ、GPTQ、GGUF、bitsandbytes)
- 注意力内核(FlashAttention-3、FlashInfer、xFormers)
- 推测解码进展
- KV缓存优化技术
- 新GPU架构(H200、Blackwell)及其优化
相关技能
本技能专注于推理时性能。对于相关工作流:
- 参见上面的“范围边界”。
外部资源
参见data/sources.json了解:
- 服务框架(vLLM、TensorRT-LLM、DeepSpeed-MII)
- 量化库(GPTQ、AWQ、bitsandbytes、LLM Compressor)
- FlashAttention、FlashInfer、xFormers
- GPU硬件指南和优化文档
- 基准测试框架和工具
每当用户需要LLM推理性能、成本降低或服务架构指导时,请使用此技能。