name: ai-llm-inference description: “LLM推理的操作模式：延迟预算、尾部延迟控制、缓存、批处理/调度、量化/压缩、并行性，以及大规模可靠服务。强调生产级性能、成本控制和可观测性。”

LLMOps - 推理与优化 - 生产技能中心

现代最佳实践（2026年1月）:

将推理视为系统问题：SLOs、尾部延迟、重试、过载和缓存策略。
当服务许多并发请求时，使用连续批处理/智能调度（Orca调度：https://www.usenix.org/conference/osdi22/presentation/yu）。
使用KV缓存感知服务（PagedAttention/vLLM：https://arxiv.org/abs/2309.06180）和**高效注意力内核**（FlashAttention：https://arxiv.org/abs/2205.14135）。
当延迟关键且草稿模型质量可接受时，使用推测解码（推测解码：https://arxiv.org/abs/2302.01318）。
仅在使用测量的质量影响和回滚计划后进行量化（量化必须在您的评估集上验证）。

本技能提供生产就绪的操作模式，用于优化LLM推理性能、成本和可靠性。它集中了推理工作负载的决策规则、优化策略、配置模板和操作清单。

无理论。无叙述。仅限Codex可执行内容。

何时使用此技能

当用户询问以下内容时，Codex应激活此技能：

优化LLM推理延迟或吞吐量
选择量化策略（FP8/FP4/INT8/INT4）
配置vLLM、TensorRT-LLM或DeepSpeed推理
跨GPU扩展LLM推理（张量/管道并行性）
构建高吞吐量LLM API
改进上下文窗口性能（KV缓存优化）
使用推测解码以加速生成
降低每令牌成本
分析和基准测试推理工作负载
规划基础设施容量
CPU/边缘部署模式
高可用性和弹性模式

范围边界（使用这些技能以深入）

提示、调优、数据集 -> ai-llm
RAG流水线构建 -> ai-rag
部署、API、监控 -> ai-mlops
安全性、治理 -> ai-mlops
性能监控 -> qa-observability
基础设施操作 -> ops-devops-platform

快速参考

任务	工具/框架	命令/模式	何时使用
延迟预算	SLO + 负载模型	TTFT/ITL + 负载下的P95/P99	任何生产端点
尾部延迟控制	调度 + 超时	准入控制 + 队列上限 + 背压	防止p99爆炸
吞吐量	批处理 + KV缓存感知服务	连续批处理 + KV分页	高并发服务
成本控制	模型分层 + 缓存	缓存（前缀/响应）+ 配额	减少支出和过载风险
长上下文	预填充优化	分块预填充 + 提示压缩	长输入和RAG重度应用
并行性	TP/PP/DP	根据模型大小和互连选择	不适合单个设备的模型
可靠性	弹性模式	超时 + 断路器 + 幂等性	避免级联故障

决策树：推理优化策略

需要优化LLM推理： [优化路径]
    │
    ├─ 高吞吐量 (>10k tok/s) 或 P99方差 > 3x P50？
    │   └─ 是 -> 分离式推理（预填充/解码分离）
    │            参见references/disaggregated-inference.md
    │
    ├─ 主要约束：吞吐量？
    │   ├─ 许多并发用户？ -> 批处理 + KV缓存感知服务 + 准入控制
    │   ├─ 聊天/代理具有KV重用？ -> SGLang (RadixAttention)
    │   └─ 主要是批量/离线？ -> 批量推理作业 + 大批量 + 现货容量
    │
    ├─ 主要约束：成本？
    │   ├─ 可以接受较低质量层？ -> 模型分层（小/中/大路由器）
    │   └─ 必须保持质量？ -> 缓存 + 量化前的提示/上下文减少
    │
    ├─ 主要约束：延迟？
    │   ├─ 草稿模型可接受？ -> 推测解码
    │   └─ 长上下文？ -> 预填充优化 + FlashAttention-3 + 上下文预算
    │
    ├─ 大模型 (>70B)？
    │   ├─ 多个GPU？ -> 张量并行性（需要NVLink）
    │   └─ 深度模型？ -> 管道并行性（最小化气泡）
    │
    ├─ 硬件选择？
    │   ├─ 内存受限？ -> 更多HBM，更高带宽
    │   ├─ 延迟受限？ -> 更快时钟 + 内核支持
    │   └─ 多节点？ -> 优先互连（NVLink/RDMA）和拓扑
    │
    │   注意：将GPU/SKU建议视为时间敏感；用供应商文档和您自己的基准验证。
    │   参见references/gpu-optimization-checklists.md和references/infrastructure-tuning.md
    │
    └─ 边缘部署？
        └─ CPU + 量化 -> llama.cpp/GGUF用于受限资源

输入清单（必需）

在推荐更改之前，收集（或推断）以下输入：

模型 + 变体（大小、上下文长度、精度/量化、分词器）
流量形状（提示/输出长度分布、并发性、QPS、流式与非流式）
SLOs和预算（TTFT/ITL/总延迟目标、错误预算、每请求成本）
服务堆栈（引擎/版本、批处理/调度设置、缓存、并行性、自动扩展）
硬件和拓扑（GPU类型/数量、VRAM、NVLink/RDMA、CPU/RAM、存储、集群/运行时）
约束（质量下限、安全要求、推出/回滚约束）

核心概念与实践

核心概念（供应商无关）

延迟组件：排队 + 预填充 + 解码；首先优化最大的贡献者。
尾部延迟：p99由排队和长提示主导；用准入控制和上下文预算修复。
重试：重试可以放大负载；限制重试并仅在严格预算下使用对冲请求。
缓存：前缀缓存帮助重复系统/工具支架；响应缓存帮助重复问题（需要失效）。
安全与隐私：提示/输出可能包含敏感数据；清理日志、强制认证/租户、和速率限制滥用（OWASP LLM Top 10：https://owasp.org/www-project-top-10-for-large-language-model-applications/）。

实施实践（工具示例）

负载下测量：用现实并发性和提示长度基准测试TTFT/ITL和p95/p99。
分离环境：开发/阶段/生产模型配置；仅在通过推理审查清单后推广。
导出遥测：请求级令牌、TTFT/ITL、队列深度、GPU内存余量、和错误类（OpenTelemetry GenAI语义约定：https://opentelemetry.io/docs/specs/semconv/gen-ai/）。

做 / 避免

做

在API边界强制执行max_input_tokens和max_output_tokens。
限制并发性和队列深度；快速返回过载错误。
在任何量化或内核更改后验证质量。

避免

避免无界重试（放大中断）。
避免无界上下文窗口（OOM + 延迟峰值）。
避免在单个请求上基准测试；始终用现实并发性测试。

准确性协议（必需）

将性能比率（例如，“2x更快”）视为假设，除非引用来源且工作负载可比。
不推荐硬件/SKU更改，除非说明假设（模型大小、上下文长度、并发性、互连）。
偏好测量基线 + 清单驱动的推出而非“最佳实践”声明。

资源（详细操作指南）

有关特定主题的全面指南，参见：

基础设施与服务

分离式推理 - 预填充/解码分离（2025+标准）
基础设施调优 - OS、容器、Kubernetes GPU工作负载优化
服务架构 - 生产服务堆栈模式（vLLM、SGLang、TensorRT-LLM、NVIDIA Dynamo）
弹性与HA模式 - 多区域、故障转移、流量管理

性能优化

量化模式 - FP8/FP4/INT8/INT4决策树（FP8优先，INT8不在Blackwell上）
KV缓存优化 - PagedAttention、FlashAttention-3、FlashInfer、RadixAttention
并行性模式 - 张量/管道/专家并行性策略
优化策略 - 吞吐量、成本、内存优化
批处理与调度 - 连续批处理和吞吐量模式

部署与操作

边缘与CPU优化 - llama.cpp、GGUF、移动/浏览器部署
GPU优化清单 - 硬件特定调优
推测解码指南 - 高级生成加速
分析与容量规划 - 基准测试、SLOs、副本大小调整

模板

推理配置

领先推理引擎的生产就绪配置模板：

vLLM配置 - 连续批处理、PagedAttention设置
TensorRT-LLM配置 - NVIDIA内核优化
DeepSpeed推理 - PyTorch友好推理

量化与压缩

模型压缩模板以减少内存和成本：

GPTQ量化 - GPU后训练量化
AWQ量化 - 激活感知权重量化
GGUF格式 - CPU/边缘优化格式

服务流水线

高吞吐量服务架构：

LLM API服务器 - FastAPI + vLLM生产设置
高吞吐量设置 - 多副本扩展模式

缓存与批处理

性能优化模板：

前缀缓存 - KV缓存重用策略
批处理配置 - 连续批处理调优

基准测试

性能测量和验证：

延迟与吞吐量测试 - 负载测试框架

清单

推理性能审查清单 - 基线、瓶颈、推出准备度

趋势意识协议

重要：当用户询问关于LLM推理的推荐问题时，您必须使用WebSearch检查当前趋势再回答。

触发条件

“对于[用例]，最好的推理引擎是什么？”
“我应该用什么来进行[服务/量化/批处理]？”
“LLM推理优化的最新动态是什么？”
“[vLLM/TensorRT/量化]的当前最佳实践是什么？”
“在2026年，[推理工具]仍然相关吗？”
“[vLLM] vs [TensorRT-LLM] vs [SGLang]？”
“对于[模型大小]，最好的量化方法是什么？”
“我应该用什么GPU进行推理？”

必需搜索

搜索："LLM推理优化最佳实践 2026"
搜索："[vLLM/TensorRT-LLM/SGLang] 比较 2026"
搜索："LLM量化趋势 2026年1月"
搜索："LLM服务新发布 2026"

报告内容

搜索后，提供：

当前格局：现在流行的服务引擎（不是6个月前）
新兴趋势：获得关注的新推理优化
过时/衰退：失去相关性的技术或工具
推荐：基于新鲜数据，而非仅静态知识

示例主题（用新鲜搜索验证）

推理引擎（vLLM 0.7+、TensorRT-LLM、SGLang、llama.cpp）
量化方法（FP8、AWQ、GPTQ、GGUF、bitsandbytes）
注意力内核（FlashAttention-3、FlashInfer、xFormers）
推测解码进展
KV缓存优化技术
新GPU架构（H200、Blackwell）及其优化

外部资源

参见data/sources.json了解：

服务框架（vLLM、TensorRT-LLM、DeepSpeed-MII）
量化库（GPTQ、AWQ、bitsandbytes、LLM Compressor）
FlashAttention、FlashInfer、xFormers
GPU硬件指南和优化文档
基准测试框架和工具

每当用户需要LLM推理性能、成本降低或服务架构指导时，请使用此技能。

LLM推理优化与生产技能Skill ai-llm-inference