名称:优化-llm 描述:获取针对服务延迟、推理成本和吞吐量改进的LLM优化建议 允许工具:读取、全局搜索、查找、任务 参数提示:“[focus: latency|cost|throughput]”
优化LLM命令
获取针对LLM服务优化的快速、可操作的推荐。
使用方法
/sd:optimize-llm [focus]
参数
focus(可选):优化优先级latency- 专注于减少响应时间cost- 专注于降低推理成本throughput- 专注于最大化请求/秒- 如果省略:提供平衡的建议
示例
/sd:optimize-llm
/sd:optimize-llm latency
/sd:optimize-llm cost
工作流程
-
收集上下文
- 搜索与LLM相关的配置文件
- 查找:模型配置、服务配置、推理脚本
- 识别当前服务堆栈(vLLM、TGI、TensorRT-LLM等)
-
启动LLM优化顾问代理 使用
llm-optimization-advisor代理进行分析并提供推荐。该代理专门研究:- 量化策略(INT8、INT4、FP16)
- 批处理优化(连续、动态)
- KV缓存优化(PagedAttention)
- 服务框架选择
- 成本降低策略
-
呈现推荐 显示优化机会,按以下组织:
- 快速见效 - 低努力、高影响的变化
- 中等努力 - 适度变化,有显著益处
- 高级优化 - 架构变化以实现最大性能
输出格式
## LLM优化报告
### 当前设置
- 模型:[检测到或询问]
- 框架:[检测到或未知]
- 硬件:[检测到或询问]
### 快速见效
1. [优化] - [预期影响]
2. ...
### 中等努力优化
1. [优化] - [预期影响]
2. ...
### 高级优化
1. [优化] - [预期影响]
2. ...
### 估计总影响
- 延迟:[X]% 改进
- 成本:[X]% 减少
- 吞吐量:[X]倍 增加