优化LLMSkill optimize-llm

这个技能用于为大型语言模型(LLM)提供优化建议,优化服务延迟、推理成本和吞吐量性能,涵盖量化、批处理和框架选择等策略。关键词:LLM优化,人工智能,深度学习,服务优化,成本降低,吞吐量提升

AI应用 0 次安装 0 次浏览 更新于 3/11/2026

名称:优化-llm 描述:获取针对服务延迟、推理成本和吞吐量改进的LLM优化建议 允许工具:读取、全局搜索、查找、任务 参数提示:“[focus: latency|cost|throughput]”

优化LLM命令

获取针对LLM服务优化的快速、可操作的推荐。

使用方法

/sd:optimize-llm [focus]

参数

  • focus (可选):优化优先级
    • latency - 专注于减少响应时间
    • cost - 专注于降低推理成本
    • throughput - 专注于最大化请求/秒
    • 如果省略:提供平衡的建议

示例

/sd:optimize-llm
/sd:optimize-llm latency
/sd:optimize-llm cost

工作流程

  1. 收集上下文

    • 搜索与LLM相关的配置文件
    • 查找:模型配置、服务配置、推理脚本
    • 识别当前服务堆栈(vLLM、TGI、TensorRT-LLM等)
  2. 启动LLM优化顾问代理 使用llm-optimization-advisor代理进行分析并提供推荐。该代理专门研究:

    • 量化策略(INT8、INT4、FP16)
    • 批处理优化(连续、动态)
    • KV缓存优化(PagedAttention)
    • 服务框架选择
    • 成本降低策略
  3. 呈现推荐 显示优化机会,按以下组织:

    • 快速见效 - 低努力、高影响的变化
    • 中等努力 - 适度变化,有显著益处
    • 高级优化 - 架构变化以实现最大性能

输出格式

## LLM优化报告

### 当前设置
- 模型:[检测到或询问]
- 框架:[检测到或未知]
- 硬件:[检测到或询问]

### 快速见效
1. [优化] - [预期影响]
2. ...

### 中等努力优化
1. [优化] - [预期影响]
2. ...

### 高级优化
1. [优化] - [预期影响]
2. ...

### 估计总影响
- 延迟:[X]% 改进
- 成本:[X]% 减少
- 吞吐量:[X]倍 增加