名称: ai-prompt-engineering 描述: “生产级LLM应用的操作提示工程:结构化输出(JSON/模式)、确定性提取器、RAG基础/引用、工具/智能体工作流、提示安全(注入/渗出),以及提示评估/回归测试。在设计、调试或标准化Codex CLI、Claude Code和OpenAI/Anthropic/Gemini API的提示时使用。”
提示工程 — 操作技能
现代最佳实践(2026年1月):版本化提示、明确输出合约、回归测试,以及工具/RAG提示的安全威胁建模(OWASP LLM Top 10: https://owasp.org/www-project-top-10-for-large-language-model-applications/)。
本技能提供操作指南,用于构建生产就绪的提示,覆盖标准任务、RAG工作流、智能体编排、结构化输出、隐藏推理和多步规划。
所有内容均为操作性的,非理论性。专注于模式、检查表和复制粘贴模板。
快速开始(60秒)
- 从决策树中选择一个模式(结构化输出、提取器、RAG、工具/智能体、重写、分类)。
- 从
assets/中的模板开始,填写TASK、INPUT、RULES和OUTPUT FORMAT。 - 添加防护栏:指令/数据分离、“不虚构细节”、缺失→
null/明确缺失。 - 添加验证:JSON解析检查、模式检查、引用检查、后工具检查。
- 添加评估:迭代时10–20个案例,发布前50–200个案例,加上对抗性注入案例。
模型说明(2026)
本技能包括Claude Code + Codex CLI优化:
- 行动指令:为实施而框架,非建议
- 并行工具执行:独立工具调用可同时运行
- 长时程任务管理:状态跟踪、增量进度、上下文压缩恢复力
- 积极框架:描述期望行为而非禁止
- 风格匹配:提示格式影响输出风格
- 领域特定模式:前端、研究和智能体编码的专门指导
- 风格对抗恢复力:用诗意/角色扮演重写压力测试拒绝;在工具使用前规范化或拒绝风格化有害请求
偏好“简短理由”而非请求思维链。使用私有推理模式时,指示:内部思考;仅输出最终答案。
快速参考
| 任务 | 使用模式 | 关键组件 | 何时使用 |
|---|---|---|---|
| 机器可解析输出 | 结构化输出 | JSON模式、“仅JSON”指令、无散文 | API集成、数据提取 |
| 字段提取 | 确定性提取器 | 精确模式、缺失->null、无转换 | 表单数据、发票解析 |
| 使用检索上下文 | RAG工作流 | 上下文相关性检查、块引用、明确缺失信息 | 知识库、文档搜索 |
| 内部推理 | 隐藏思维链 | 内部推理、仅最终答案 | 分类、复杂决策 |
| 工具使用智能体 | 工具/智能体规划器 | 先计划后行动、每轮一个工具 | 多步工作流、API调用 |
| 文本转换 | 重写 + 约束 | 风格规则、意义保留、格式规范 | 内容适应、摘要 |
| 分类 | 决策树 | 有序分支、互斥、JSON结果 | 路由、分类、分诊 |
决策树:选择正确模式
用户需求: [提示类型]
|-- 输出必须是机器可读的?
| |-- 仅提取特定字段? -> **确定性提取器模式**
| `-- 生成结构化数据? -> **结构化输出模式 (JSON)**
|
|-- 使用外部知识?
| `-- 检索上下文必须被引用? -> **RAG工作流模式**
|
|-- 需要推理但隐藏过程?
| `-- 分类或决策任务? -> **隐藏思维链模式**
|
|-- 需要调用外部工具/APIs?
| `-- 多步工作流? -> **工具/智能体规划器模式**
|
|-- 转换现有文本?
| `-- 风格/格式约束? -> **重写 + 约束模式**
|
`-- 分类或路由到类别?
`-- 互斥规则? -> **决策树模式**
复制/粘贴:最小提示骨架
1) 通用“输出合约”骨架
TASK:
{{one_sentence_task}}
INPUT:
{{input_data}}
RULES:
- 严格遵循TASK。
- 仅使用INPUT(和允许的工具输出)。
- 不虚构细节。缺失所需信息 -> 说明缺失内容。
- 保持推理隐藏。
- 严格遵循OUTPUT FORMAT。
OUTPUT FORMAT:
{{schema_or_format_spec}}
2) 工具/智能体骨架(确定性)
可用工具:
{{tool_signatures_or_names}}
工作流:
- 制定简短计划。
- 仅在需要完成任务时调用工具。
- 在使用前验证工具输出。
- 如果环境支持并行工具调用,同时运行独立调用。
3) RAG骨架(基础)
检索上下文:
{{chunks_with_ids}}
规则:
- 仅使用检索上下文进行事实声明。
- 为每个声明引用块ID。
- 如果证据缺失,说明缺失内容。
操作检查表
验证或调试提示时使用这些参考:
frameworks/shared-skills/skills/ai-prompt-engineering/references/quality-checklists.mdframeworks/shared-skills/skills/ai-prompt-engineering/references/production-guidelines.md
上下文工程(2026)
真正的提示工程专业知识超越编写指令,扩展到塑造模型操作的整个上下文。上下文工程包括:
- 对话历史:哪些先前轮次影响当前响应
- 检索上下文(RAG):注入到提示中的外部知识
- 结构化输入:JSON模式、系统/用户消息分离
- 工具输出:来自先前工具调用的结果,塑造下一步
上下文工程 vs 提示工程
| 方面 | 提示工程 | 上下文工程 |
|---|---|---|
| 焦点 | 指令文本 | 完整输入管道 |
| 范围 | 单个提示 | RAG + 历史 + 工具 |
| 优化 | 词语选择、结构 | 信息架构 |
| 目标 | 清晰指令 | 最优上下文窗口 |
关键上下文工程模式
1. 上下文优先级:将最相关信息放在前面;模型更关注早期上下文。
2. 上下文压缩:总结历史、截断工具输出、选择最相关RAG块。
3. 上下文分离:使用清晰分隔符(<system>、<user>、<context>)分离指令类型。
4. 动态上下文:基于任务复杂性调整上下文 - 简单任务需要较少上下文,复杂任务需要更多。
核心概念 vs 实施实践
核心概念(供应商无关)
- 提示合约:输入、允许工具、输出模式、最大令牌、拒绝规则。
- 上下文工程:对话历史、RAG上下文、工具输出、结构化输入塑造模型行为。
- 确定性控制:温度/top_p、约束解码/结构化输出、严格格式化。
- 成本与延迟预算:提示长度和最大输出驱动令牌和尾延迟;强制执行硬限制并测量p95/p99。
- 评估:黄金集 + 回归门 + A/B + 部署后监控。
- 安全:提示注入、数据渗出、工具误用是主要威胁(OWASP LLM Top 10: https://owasp.org/www-project-top-10-for-large-language-model-applications/)。
实施实践(模型/平台特定)
- 可用时使用模型特定结构化输出功能;保持模式验证器为真理源。
- 将跟踪/指标与OpenTelemetry GenAI语义约定对齐(https://opentelemetry.io/docs/specs/semconv/gen-ai/)。
做 / 避免
做
- 保持提示小且模块化;集中共享片段(策略、模式、风格)。
- 添加提示评估工具并阻止合并上的回归。
- 偏好“简短理由”而非请求思维链;将隐藏推理视为模型内部。
避免
- 避免提示蔓延(许多近重复,无所有者或测试)。
- 避免无中间验证的脆弱多步链。
- 避免在同一提示中混合策略和产品文案(更难审核和更新)。
导航:核心模式
- 核心模式 - 7个生产级提示模式
- 结构化输出(JSON)、确定性提取器、RAG工作流
- 隐藏思维链、工具/智能体规划器、重写 + 约束、决策树
- 每个模式包括结构模板和验证检查表
导航:最佳实践
-
最佳实践(核心) - 生产级提示的基础规则
- 系统指令设计、输出合约规范、行动指令
- 上下文处理、错误恢复、积极框架、风格匹配、风格对抗红队
- 反模式、Claude 4+ 特定优化
-
生产指南 - 部署和操作指导
- 评估与测试(提示CI/CD)、模型参数、少样本选择
- 安全与防护栏、对话记忆、上下文压缩恢复力
- 答案工程、分解、多语言/多模态、基准测试
- CI/CD工具(2026):Promptfoo、DeepEval集成模式
- 安全(2026):PromptGuard 4层防御、Microsoft提示盾、污点跟踪
-
质量检查表 - 部署前的验证检查表
- 提示QA、JSON验证、智能体工作流检查
- RAG工作流、安全与安全、性能优化
- 测试覆盖、反模式、质量评分规则
-
领域特定模式 - Claude 4+ 优化的专门领域模式
- 前端/视觉代码:创造力鼓励、设计变体、微交互
- 研究任务:成功标准、验证、假设跟踪
- 智能体编码:无推测规则、原则实施、调查模式
- 跨领域最佳实践和质量修饰符
导航:专门模式
-
RAG模式 - 检索增强生成工作流
- 上下文基础、块引用、缺失信息处理
-
智能体和工具模式 - 工具使用和智能体编排
- 先计划后行动工作流、工具调用、多步推理、生成-验证-修订链
- 多智能体编排(2026):集中、交接、联邦模式;规划与执行(90%成本降低)
-
提取模式 - 确定性字段提取
- 基于模式的提取、null处理、无幻觉
-
推理模式(隐藏CoT) - 无可见输出的内部推理
- 隐藏推理、仅最终答案、分类工作流
- 扩展思考API(Claude 4+):预算管理、思考工具、多样本模式
-
附加模式 - 扩展提示工程技术
- 高级模式、边缘案例、优化策略
导航:模板
模板为复制粘贴准备,按复杂性组织:
快速模板
- 快速模板 - 快速、最小提示结构
标准模板
- 标准模板 - 生产级操作提示
- 智能体模板 - 工具使用智能体与规划
- RAG模板 - 检索增强生成
- 思维链模板 - 隐藏推理模式
- JSON提取器模板 - 确定性字段提取
- 提示评估模板 - 回归测试、A/B测试、推出门
外部资源
外部参考列在data/sources.json中:
- 官方文档(OpenAI、Anthropic、Google)
- LLM框架(LangChain、LlamaIndex)
- 向量数据库(Pinecone、Weaviate、FAISS)
- 评估工具(OpenAI Evals、HELM)
- 安全指南和标准
- RAG和检索资源
新鲜度规则(2026)
当请求“最新”提示推荐时,优先提供来自data/sources.json的供应商文档和标准。如果网络搜索不可用,说明限制并避免过度自信的“当前最佳”声明。
相关技能
本技能提供基础提示工程模式。对于专门实施:
AI/LLM技能:
- AI智能体开发 - 生产智能体模式、MCP集成、编排
- AI LLM工程 - LLM应用架构和部署
- AI LLM RAG工程 - 高级RAG管道和分块策略
- AI LLM搜索与检索 - 搜索优化、混合检索、重排序
- AI LLM开发 - 微调、评估、数据集创建
软件开发技能:
使用说明
对于Claude Code:
- 构建智能体、命令或集成的提示时参考本技能
- 使用快速参考表快速查找模式
- 遵循决策树选择适当模式
- 部署前用质量检查表验证输出
- 使用模板作为起点,为特定用例定制
对于Codex CLI:
- 使用相同模式和模板;调整工具使用措辞到本地工具接口
- 对于长时程任务,明确跟踪进度(步骤列表/计划)并在工作完成时更新
- 当环境支持时,并行运行独立读取/搜索;保持写入/编辑序列化
- AGENTS.md集成:在全局(~/.codex/AGENTS.md)、项目级(./AGENTS.md)或子目录范围放置项目特定提示指导,用于分层指令
- 推理努力:使用
medium用于交互式编码(默认)、high/xhigh用于复杂自主多小时任务