Name: 优化LLMSkill
Rating: 5 (1 reviews)
Author: melodic

名称：优化-llm 描述：获取针对服务延迟、推理成本和吞吐量改进的LLM优化建议允许工具：读取、全局搜索、查找、任务参数提示：“[focus: latency|cost|throughput]”

优化LLM命令

获取针对LLM服务优化的快速、可操作的推荐。

使用方法

/sd:optimize-llm [focus]

参数

focus （可选）：优化优先级
- latency - 专注于减少响应时间
- cost - 专注于降低推理成本
- throughput - 专注于最大化请求/秒
- 如果省略：提供平衡的建议

示例

/sd:optimize-llm
/sd:optimize-llm latency
/sd:optimize-llm cost

工作流程

收集上下文
- 搜索与LLM相关的配置文件
- 查找：模型配置、服务配置、推理脚本
- 识别当前服务堆栈（vLLM、TGI、TensorRT-LLM等）
启动LLM优化顾问代理 使用llm-optimization-advisor代理进行分析并提供推荐。该代理专门研究：
- 量化策略（INT8、INT4、FP16）
- 批处理优化（连续、动态）
- KV缓存优化（PagedAttention）
- 服务框架选择
- 成本降低策略
呈现推荐 显示优化机会，按以下组织：
- 快速见效 - 低努力、高影响的变化
- 中等努力 - 适度变化，有显著益处
- 高级优化 - 架构变化以实现最大性能

输出格式

## LLM优化报告

### 当前设置
- 模型：[检测到或询问]
- 框架：[检测到或未知]
- 硬件：[检测到或询问]

### 快速见效
1. [优化] - [预期影响]
2. ...

### 中等努力优化
1. [优化] - [预期影响]
2. ...

### 高级优化
1. [优化] - [预期影响]
2. ...

### 估计总影响
- 延迟：[X]% 改进
- 成本：[X]% 减少
- 吞吐量：[X]倍 增加

名称：优化-llm 描述：获取针对服务延迟、推理成本和吞吐量改进的LLM优化建议 允许工具：读取、全局搜索、查找、任务 参数提示：“[focus: latency|cost|throughput]”

优化LLM命令

使用方法

参数

示例

工作流程

输出格式

名称：优化-llm 描述：获取针对服务延迟、推理成本和吞吐量改进的LLM优化建议允许工具：读取、全局搜索、查找、任务参数提示：“[focus: latency|cost|throughput]”