名称: 上下文工程 描述: >- 精通用于AI智能体系统的上下文工程。在以下情况下使用:设计智能体架构、 调试上下文故障、优化令牌使用、实现记忆系统、 构建多智能体协调、评估智能体性能或开发 基于LLM的管道。涵盖上下文基础、退化模式、优化 技术(压缩、掩码、缓存)、压缩策略、记忆架构、 多智能体模式、LLM作为评估者、工具设计和项目开发。 版本: 1.0.0
上下文工程
上下文工程为LLM任务策划最小的高信号令牌集。目标:在最小化令牌使用的同时最大化推理质量。
何时激活
- 设计/调试智能体系统
- 上下文限制约束性能
- 优化成本/延迟
- 构建多智能体协调
- 实现记忆系统
- 评估智能体性能
- 开发基于LLM的管道
核心原则
- 上下文质量 > 数量 - 高信号令牌胜于详尽内容
- 注意力是有限的 - U形曲线偏好开始/结束位置
- 渐进式披露 - 及时加载信息
- 隔离防止退化 - 将工作分区到子智能体
- 优化前测量 - 了解基线
快速参考
| 主题 | 何时使用 | 参考 |
|---|---|---|
| 基础 | 理解上下文解剖、注意力机制 | context-fundamentals.md |
| 退化 | 调试故障、中间丢失、中毒 | context-degradation.md |
| 优化 | 压缩、掩码、缓存、分区 | context-optimization.md |
| 压缩 | 长会话、摘要策略 | context-compression.md |
| 记忆 | 跨会话持久性、知识图谱 | memory-systems.md |
| 多智能体 | 协调模式、上下文隔离 | multi-agent-patterns.md |
| 评估 | 测试智能体、LLM作为评估者、指标 | evaluation.md |
| 工具设计 | 工具整合、描述工程 | tool-design.md |
| 管道 | 项目开发、批处理 | project-development.md |
关键指标
- 令牌利用率:警告在70%,触发优化在80%
- 令牌方差:解释80%的智能体性能方差
- 多智能体成本:约15倍单智能体基线
- 压缩目标:50-70%减少,<5%质量损失
- 缓存命中目标:70%+用于稳定工作负载
四桶策略
- 写:将上下文保存到外部(草稿、文件)
- 选择:仅拉取相关上下文(检索、过滤)
- 压缩:减少令牌同时保留信息(摘要)
- 隔离:跨子智能体分割(分区)
反模式
- 详尽上下文优于策划上下文
- 关键信息在中间位置
- 无压缩触发器在限制前
- 单智能体用于可并行任务
- 无清晰描述的工具
指南
- 将关键信息放在上下文的开始/结束
- 在70-80%利用率时实现压缩
- 使用子智能体进行上下文隔离,而非角色扮演
- 用4问题框架设计工具(什么、何时、输入、返回)
- 优化令牌每任务,而非令牌每请求
- 用基于探针的评估验证
- 监控生产中的KV缓存命中率
- 开始最小化,仅在被证明必要时增加复杂性
脚本
- context_analyzer.py - 上下文健康分析、退化检测
- compression_evaluator.py - 压缩质量评估