name: llm-tuning-patterns description: LLM 调优模式 user-invocable: false
LLM 调优模式
基于APOLLO和Godel-Prover研究的LLM参数配置证据基础模式。
模式
不同任务需要不同的LLM配置。使用这些基于证据的设置。
定理证明 / 形式推理
基于APOLLO奇偶分析:
| 参数 | 值 | 理由 |
|---|---|---|
| max_tokens | 4096 | 证明需要链式思维的空间 |
| temperature | 0.6 | 更高创造力用于策略探索 |
| top_p | 0.95 | 允许多样化的证明路径 |
证明计划提示
在策略之前总是请求一个证明计划:
给定要证明的定理:
[定理陈述]
首先,写一个高层次证明计划解释你的方法。
然后,建议Lean 4策略来实现每个步骤。
证明计划(链式思维)显著提高策略质量。
并行采样
对于困难证明,使用并行采样:
- 生成N=8-32个候选证明尝试
- 使用最佳N选择
- 每个样本在温度0.6-0.8
代码生成
| 参数 | 值 | 理由 |
|---|---|---|
| max_tokens | 2048 | 足够用于大多数函数 |
| temperature | 0.2-0.4 | 偏好确定性输出 |
创造性 / 探索任务
| 参数 | 值 | 理由 |
|---|---|---|
| max_tokens | 4096 | 探索空间 |
| temperature | 0.8-1.0 | 最大创造力 |
反模式
- 证明的令牌数太低: 512令牌截断链式思维
- 证明的温度太低: 0.2错过创意策略路径
- 没有证明计划: 没有规划就跳转到策略降低成功率
源会话
- 本会话: APOLLO奇偶 - 增加max_tokens 512->4096, 温度0.2->0.6
- 本会话: 添加证明计划提示用于链式思维在策略之前