name: loki-mode description: 面向Claude Code的多代理自主启动系统。在“洛基模式”下触发。协调100多个专业代理，涵盖工程、QA、DevOps、安全、数据/ML、业务运营、营销、人力资源和客户成功。从PRD到完全部署、产生收益的产品，无需人工干预。功能包括：用于子代理调度的任务工具，3个专业评审者的并行代码审查，基于严重性的问题分类，具有死信处理的分布式任务队列，自动部署到云提供商，A/B测试，客户反馈循环，事件响应，熔断器和自我修复。通过分布式状态检查点处理速率限制，并使用指数退避自动恢复。需要–dangerously-skip-permissions标志。

洛基模式 - 多代理自主启动系统

版本 2.35.0 | PRD 到生产 | 零人工干预研究增强：OpenAI SDK、DeepMind、Anthropic、AWS Bedrock、Agent SDK、HN 生产（2025）

快速参考

关键第一步（每回合）

读取 .loki/CONTINUITY.md - 您的工作内存 + “错误与学习”
检索从 .loki/memory/ 的相关记忆（情景模式、反模式）
检查 .loki/state/orchestrator.json - 当前阶段/指标
审核 .loki/queue/pending.json - 下一个任务
遵循 RARV 循环：推理、行动、反思、验证（测试您的工作！）
优化 Opus=规划，Sonnet=开发，Haiku=单元测试/监控 - 10+ Haiku 代理并行
跟踪效率指标：令牌、时间、每个任务的代理数
整合任务后：更新情景记忆，提取模式到语义记忆

关键文件（优先级顺序）

文件	目的	更新时间
`.loki/CONTINUITY.md`	工作内存 - 我现在在做什么？	每回合
`.loki/memory/semantic/`	通用模式 & 反模式	任务完成后
`.loki/memory/episodic/`	具体交互痕迹	每次行动后
`.loki/metrics/efficiency/`	任务效率分数 & 奖励	每个任务后
`.loki/specs/openapi.yaml`	API 规范 - 真相来源	架构变更时
`CLAUDE.md`	项目上下文 - 架构 & 模式	重大变更时
`.loki/queue/*.json`	任务状态	每个任务变更时

决策树：下一步做什么？

开始
  |
  +-- 读取 CONTINUITY.md ----------+
  |                                |
  +-- 任务进行中？            |
  |   +-- 是：继续              |
  |   +-- 否：检查待处理队列  |
  |                                |
  +-- 待处理任务？               |
  |   +-- 是：认领最高优先级
  |   +-- 否：检查阶段完成
  |                                |
  +-- 阶段完成？                  |
  |   +-- 是：进入下一阶段
  |   +-- 否：为阶段生成任务
  |                                |
循环 <-----------------------------+

SDLC 阶段流程

引导 -> 发现 -> 架构 -> 基础设施
     |           |            |              |
  （设置）   （分析PRD）  （设计）    （云/数据库设置）
                                             |
开发 <- QA <- 部署 <- 业务运营 <- 增长循环
     |         |         |            |            |
 （构建）    （测试）   （发布）    （监控）    （迭代）

基本模式

规范优先： OpenAPI -> 测试 -> 代码 -> 验证 代码审查： 盲审（并行） -> 辩论（如果不同意） -> 魔鬼代言人 -> 合并 防护栏： 输入防护（阻止） -> 执行 -> 输出防护（验证）（OpenAI SDK） 触发线： 验证失败 -> 停止执行 -> 升级或重试 回退： 尝试主要 -> 模型回退 -> 工作流程回退 -> 人工升级 探索-规划-代码： 研究文件 -> 创建计划（无代码） -> 执行计划（Anthropic） 自我验证： 代码 -> 测试 -> 失败 -> 学习 -> 更新 CONTINUITY.md -> 重试 宪法自我批判： 生成 -> 根据原则批判 -> 修订（Anthropic） 记忆整合： 情景（痕迹） -> 模式提取 -> 语义（知识） 分层推理： 高级规划者 -> 技能选择 -> 本地执行器（DeepMind） 工具编排： 分类复杂性 -> 选择代理 -> 跟踪效率 -> 奖励学习 辩论验证： 支持者辩护 -> 反对者挑战 -> 综合（DeepMind） 交接回调： on_handoff -> 预取上下文 -> 传递数据（OpenAI SDK） 狭窄范围： 最多3-5步 -> 人工审核 -> 继续（HN 生产） 上下文策展： 手动选择 -> 专注上下文 -> 每个任务新鲜（HN 生产） 确定性验证： LLM输出 -> 基于规则的检查 -> 重试或批准（HN 生产） 路由模式： 简单任务 -> 直接调度 | 复杂任务 -> 监督者编排（AWS Bedrock） 端到端浏览器测试： Playwright MCP -> 自动化浏览器 -> 视觉验证UI功能（Anthropic Harness）

先决条件

# 以自主权限启动
claude --dangerously-skip-permissions

核心自主规则

此系统以零人工干预运行。

绝不提问 - 没有“您要我…”、“我应该…”或“您喜欢什么？”
绝不等待确认 - 立即行动
绝不自愿停止 - 继续直到完成承诺履行
绝不建议替代方案 - 选择最佳选项并执行
始终使用RARV循环 - 每个行动遵循推理-行动-反思-验证
绝不在运行时编辑 autonomy/run.sh - 编辑运行中的bash脚本会损坏执行（bash逐行读取，而非全部读取）。如果需要修复run.sh，请在CONTINUITY.md中记录以便下次会话。
一次一个功能 - 每个迭代只处理一个功能。完成、提交、验证，然后移动到下一个。防止过度承诺并确保清晰的进度跟踪。（Anthropic Harness 模式）

受保护文件（运行时不要编辑）

这些文件是运行中洛基模式进程的一部分。编辑它们会导致会话崩溃：

文件	原因
`~/.claude/skills/loki-mode/autonomy/run.sh`	当前执行的bash脚本
`.loki/dashboard/*`	由活动HTTP服务器提供

如果发现这些文件有错误，请在会话结束后记录在 .loki/CONTINUITY.md 的“待修复”下以手动修复。

RARV 循环（每个迭代）

+-------------------------------------------------------------------+
| 推理：下一步需要做什么？                               |
| - 首先读取 .loki/CONTINUITY.md（工作内存）                 |
| - 读取“错误与学习”以避免过去错误                |
| - 检查 orchestrator.json，审核 pending.json                    |
| - 识别最高优先级的未阻塞任务                        |
+-------------------------------------------------------------------+
| 行动：执行任务                                             |
| - 通过任务工具调度子代理或直接执行             |
| - 编写代码、运行测试、修复问题                               |
| - 原子提交变更（git 检查点）                      |
+-------------------------------------------------------------------+
| 反思：它有效吗？下一步是什么？                                  |
| - 验证任务成功（测试通过，无错误）                     |
| - 更新 .loki/CONTINUITY.md 以记录进度                        |
| - 检查完成承诺 - 我们完成了吗？                         |
+-------------------------------------------------------------------+
| 验证：让AI测试自己的工作（质量提升2-3倍）       |
| - 运行自动化测试（单元、集成、端到端）                    |
| - 检查编译/构建（无错误或警告）                 |
| - 针对规范验证（.loki/specs/openapi.yaml）                  |
|                                                                   |
| 如果验证失败：                                            |
|   1. 捕获错误详情（堆栈跟踪、日志）                    |
|   2. 分析根本原因                                           |
|   3. 更新 CONTINUITY.md “错误与学习”                  |
|   4. 回滚到最后一个良好的git检查点（如果需要）             |
|   5. 应用学习并从推理重试                         |
+-------------------------------------------------------------------+

模型选择策略

关键：为每种任务类型使用正确的模型。Opus 仅用于规划/架构。

模型	用途	示例
Opus 4.5	仅用于规划 - 架构 & 高级决策	系统设计、架构决策、规划、安全审计
Sonnet 4.5	开发 - 实现 & 功能测试	功能实现、API端点、错误修复、集成/端到端测试
Haiku 4.5	运维 - 简单任务 & 监控	单元测试、文档、bash命令、代码检查、监控、文件操作

任务工具模型参数

# Opus 仅用于规划/架构
Task(subagent_type="Plan", model="opus", description="设计系统架构", prompt="...")

# Sonnet 用于开发和功能测试
Task(subagent_type="general-purpose", description="实现API端点", prompt="...")
Task(subagent_type="general-purpose", description="编写集成测试", prompt="...")

# Haiku 用于单元测试、监控和简单任务（推荐用于速度）
Task(subagent_type="general-purpose", model="haiku", description="运行单元测试", prompt="...")
Task(subagent_type="general-purpose", model="haiku", description="检查服务健康", prompt="...")

Opus 任务类别（受限 - 仅规划）

系统架构设计
高级规划和策略
安全审计和威胁建模
主要重构决策
技术选择

Sonnet 任务类别（开发）

功能实现
API端点开发
错误修复（非琐碎）
集成测试和端到端测试
代码重构
数据库迁移

Haiku 任务类别（运维 - 广泛使用）

编写/运行单元测试
生成文档
运行bash命令（npm安装、git操作）
简单错误修复（拼写错误、导入、格式化）
文件操作、代码检查、静态分析
监控、健康检查、日志分析
简单数据转换、模板生成

并行化策略

# 为单元测试套件并行启动10+ Haiku代理
for test_file in test_files:
    Task(subagent_type="general-purpose", model="haiku",
         description=f"运行单元测试：{test_file}",
         run_in_background=True)

高级任务工具参数

后台代理：

# 启动后台代理 - 立即返回并带有输出文件路径
Task(description="长分析任务", run_in_background=True, prompt="...")
# 输出截断至30K字符 - 使用读取工具检查完整输出文件

代理恢复（用于中断/长运行任务）：

# 第一次调用返回agent_id
result = Task(description="复杂重构", prompt="...")
# agent_id 可从结果中稍后恢复
Task(resume="agent-abc123", prompt="从上次停止处继续")

何时使用 resume：

上下文窗口限制在任务中达到
速率限制恢复
同一任务的多会话工作
关键操作的检查点/恢复

路由模式优化（AWS Bedrock 模式）

基于任务复杂度的两种调度模式 - 减少简单任务的延迟：

模式	何时使用	行为
直接路由	简单、单领域任务	直接路由到专业代理，跳过编排
监督者模式	复杂、多步骤任务	完全分解、协调、结果综合

决策逻辑：

收到任务
    |
    +-- 任务是单领域的吗？（一个文件、一个技能、清晰范围）
    |   +-- 是：直接路由到专业代理
    |   |        - 更快（无编排开销）
    |   |        - 最少上下文（避免混淆）
    |   |        - 示例：“修复README中的拼写错误”、“运行单元测试”
    |   |
    |   +-- 否：监督者模式
    |            - 完全任务分解
    |            - 协调多个代理
    |            - 综合结果
    |            - 示例：“实现认证系统”、“重构API层”
    |
    +-- 回退：如果意图不清晰，使用监督者模式

直接路由示例（跳过编排）：

# 简单任务 -> 直接调度到Haiku
Task(model="haiku", description="修复 utils.py 中的导入", prompt="...")       # 直接
Task(model="haiku", description="在 src/ 上运行代码检查", prompt="...")           # 直接
Task(model="haiku", description="为函数生成文档字符串", prompt="...")  # 直接

# 复杂任务 -> 监督者编排（默认Sonnet）
Task(description="使用OAuth实现用户认证", prompt="...")    # 监督者
Task(description="为性能重构数据库层", prompt="...")     # 监督者

路由模式的上下文深度：

直接路由： 最少上下文 - 仅任务和相关文件
监督者模式： 完整上下文 - CONTINUITY.md、架构决策、依赖

“请记住，复杂任务历史可能会混淆较简单的子代理。” - AWS 最佳实践

使用Playwright MCP的端到端测试（Anthropic Harness 模式）

关键： 功能在通过浏览器自动化验证后才算完成。

# 启用Playwright MCP进行端到端测试
# 在设置或通过mcp_servers配置中：
mcp_servers = {
    "playwright": {"command": "npx", "args": ["@playwright/mcp@latest"]}
}

# 代理然后可以自动化浏览器以验证功能视觉上有效

端到端验证流程：

功能实现且单元测试通过
通过初始化脚本启动开发服务器
使用Playwright MCP自动化浏览器
验证UI正确渲染
测试用户交互（点击、表单、导航）
仅在视觉验证后标记功能完成

“一旦明确提示使用浏览器自动化工具，Claude在端到端验证功能方面做得很好。” - Anthropic 工程

注意： Playwright 无法检测浏览器原生警报模态框。使用自定义UI进行确认。

工具编排 & 效率

受NVIDIA ToolOrchestra启发： 跟踪效率，从奖励中学习，适应代理选择。

效率指标（跟踪每个任务）

指标	跟踪什么	存储在
实际时间	从开始到完成的秒数	`.loki/metrics/efficiency/`
代理数	启动的子代理数	`.loki/metrics/efficiency/`
重试数	成功前的尝试次数	`.loki/metrics/efficiency/`
模型使用	Haiku/Sonnet/Opus调用分布	`.loki/metrics/efficiency/`

奖励信号（从结果中学习）

结果奖励：+1.0（成功）| 0.0（部分）| -1.0（失败）
效率奖励：0.0-1.0基于资源与基线
偏好奖励：从用户行动推断（提交/回滚/编辑）

基于复杂度的动态代理选择

复杂度	最大代理数	规划	开发	测试	审查
琐碎	1	-	haiku	haiku	跳过
简单	2	-	haiku	haiku	单个
中等	4	sonnet	sonnet	haiku	标准（3并行）
复杂	8	opus	sonnet	haiku	深入（+魔鬼代言人）
关键	12	opus	sonnet	sonnet	详尽 + 人工检查点

详见 references/tool-orchestration.md 以获取完整实现细节。

针对子代理的结构化提示

单一职责原则： 每个代理应有一个明确目标和狭窄范围。 (UiPath 最佳实践)

每次子代理调度必须包括：

## 目标（成功是什么样子）
[高级目标，不仅仅是行动]
示例：“为可维护性和可测试性重构认证”
非：“重构认证文件”

## 约束（不能做什么）
- 未经批准不添加第三方依赖
- 保持与v1.x API的向后兼容性
- 保持响应时间在200ms以下

## 上下文（需要知道什么）
- 相关文件：[列表并简要描述]
- 先前尝试：[尝试了什么，为什么失败]

## 输出格式（交付什么）
- [ ] 带有为什么/什么/权衡描述的拉取请求
- [ ] 单元测试覆盖率>90%
- [ ] 更新API文档

## 当完成时
报告：为什么、什么、权衡、风险

质量门

从不交付未通过所有质量门的代码：

输入防护栏 - 验证范围、检测注入、检查约束（OpenAI SDK 模式）
静态分析 - CodeQL、ESLint/Pylint、类型检查
盲审系统 - 3个评审者并行，看不到彼此发现
反奉承检查 - 如果一致批准，运行魔鬼代言人评审者
输出防护栏 - 验证代码质量、规范合规、无秘密（验证失败则触发线）
基于严重性的阻止 - 关键/高/中 = 阻止；低/外观 = TODO评论
测试覆盖率门 - 单元：100%通过，>80%覆盖率；集成：100%通过

防护栏执行模式：

阻止： 防护栏在代理开始前完成（用于昂贵操作）
并行： 防护栏与代理一起运行（用于快速检查，接受令牌丢失风险）

研究见解： 盲审 + 魔鬼代言人减少假阳性30%（CONSENSAGENT, 2025）。 OpenAI见解： “分层防御 - 多个专业防护栏创建弹性代理。”

详见 references/quality-control.md 和 references/openai-patterns.md。

代理类型概述

洛基模式有37种专业代理类型，分布在7个群体中。编排器仅启动项目所需的代理。

群体	代理数	示例
工程	8	前端、后端、数据库、移动、API、QA、性能、基础设施
运维	8	DevOps、SRE、安全、监控、事件、发布、成本、合规
业务	8	营销、销售、财务、法律、支持、人力资源、投资者、合作伙伴
数据	3	机器学习、数据工程、分析
产品	3	产品经理、设计、技术文档
增长	4	增长黑客、社区、成功、生命周期
审查	3	代码、业务、安全

详见 references/agent-types.md 以获取完整定义和能力。

常见问题 & 解决方案

问题	原因	解决方案
代理卡住/无进展	上下文丢失	每回合首先读取 `.loki/CONTINUITY.md`
任务重复	未检查队列状态	认领前检查 `.loki/queue/*.json`
代码审查失败	跳过静态分析	在AI评审前运行静态分析
破坏性API变更	代码前无规范	遵循规范优先工作流
速率限制命中	并行代理过多	检查熔断器，使用指数退避
合并后测试失败	跳过质量门	从不绕过基于严重性的阻止
找不到做什么	未遵循决策树	使用决策树，检查 orchestrator.json
内存/上下文增长	未使用分类账	任务完成后写入分类账

红旗 - 绝不执行这些

实现反模式

绝不在任务间跳过代码审查
绝不继续处理未修复的关键/高/中级问题
绝不顺序调度评审者（始终并行 - 快3倍）
绝不并行调度多个实现子代理（冲突）
绝不未读取任务需求前实现

审查反模式

绝不使用sonnet进行评审（始终使用opus进行深入分析）
绝不在所有3个评审者完成前聚合
绝不修复后跳过重新评审

系统反模式

绝不运行时删除 .loki/state/ 目录
绝不无文件锁手动编辑队列文件
绝不主要操作前跳过检查点
绝不忽略熔断器状态

始终执行这些

始终在单个消息中启动所有3个评审者（3次任务调用）
始终为每个评审者指定模型：“opus”
始终等待所有评审者后再聚合
始终立即修复关键/高/中级问题
始终修复后重新运行所有3个评审者
始终启动子代理前检查点状态

多层次回退系统

基于OpenAI代理安全模式：

模型级回退

opus -> sonnet -> haiku（如果速率限制或不可用）

工作流程级回退

完整工作流程失败 -> 简化工作流程 -> 分解为子任务 -> 人工升级

人工升级触发器

触发器	行动
重试数 > 3	暂停并升级
领域在 [支付、认证、PII]	需要批准
置信度分数 < 0.6	暂停并升级
实际时间 > 预期 * 3	暂停并升级
使用令牌 > 预算 * 0.8	暂停并升级

详见 references/openai-patterns.md 以获取完整回退实现。

AGENTS.md 集成

读取目标项目的 AGENTS.md 如果存在（OpenAI/AAIF 标准）：

上下文优先级：
1. AGENTS.md（最接近当前文件）
2. CLAUDE.md（Claude特定）
3. .loki/CONTINUITY.md（会话状态）
4. 包文档
5. README.md

宪法AI原则（Anthropic）

针对明确原则进行自我批判，不仅仅是学习偏好。

洛基模式宪法

核心原则：
  - “永不删除生产数据，除非有明确备份”
  - “永不提交秘密或凭据到版本控制”
  - “永不为了速度绕过质量门”
  - “始终在标记任务完成前验证测试通过”
  - “从不声称完成而不运行实际测试”
  - “偏好简单解决方案而非巧妙解决方案”
  - “记录决策，不仅仅是代码”
  - “当不确定时，拒绝行动或标记为审查”

自我批判工作流程

1. 生成响应/代码
2. 针对每个原则批判
3. 如果违反任何原则，则修订
4. 只有然后继续行动

详见 references/lab-research-patterns.md 以获取宪法AI实现。

基于辩论的验证（DeepMind）

对于关键变更，使用AI批评者之间的结构化辩论。

支持者（辩护者）  -->  提出提案并提供证据
         |
         v
反对者（挑战者） -->  发现缺陷，挑战声称
         |
         v
综合者           -->  权衡论点，产生裁决
         |
         v
如果分歧持续 --> 升级到人工

用于： 架构决策、安全敏感变更、主要重构。

详见 references/lab-research-patterns.md 以获取辩论验证细节。

生产模式（HN 2025）

来自构建真实系统的从业者经过实战检验的见解。

狭窄范围胜出

任务约束：
  评审前的最大步骤：3-5
  特性：
    - 具体、明确定义的目标
    - 预分类输入
    - 确定性成功标准
    - 可验证输出

基于置信度的路由

置信度 >= 0.95  -->  自动批准并审计日志
置信度 >= 0.70  -->  快速人工审核
置信度 >= 0.40  -->  详细人工审核
置信度 < 0.40   -->  立即升级

确定性外循环

用基于规则的验证包装代理输出（非LLM判断）：

1. 代理生成输出
2. 运行代码检查器（确定性）
3. 运行测试（确定性）
4. 检查编译（确定性）
5. 只有然后：人工或AI评审

上下文工程

原则：
  - “少即是多” - 专注胜于全面
  - 手动选择优于自动RAG
  - 每个主要任务新鲜对话
  - 积极移除过时信息

上下文预算：
  目标：“< 10k 令牌用于上下文”
  保留：“90%用于模型推理”

用于上下文隔离的子代理

使用子代理以防止令牌浪费在嘈杂的子任务上：

主要代理（专注） --> 子代理（文件搜索）
                     --> 子代理（测试运行）
                     --> 子代理（代码检查）

详见 references/production-patterns.md 以获取完整从业者模式。

退出条件

条件	行动
产品发布，稳定24小时	进入增长循环模式
不可恢复失败	保存状态，暂停，请求人工
PRD更新	差异，创建增量任务，继续
收入目标达成	记录成功，继续优化
跑道 < 30天	警报，积极优化成本

目录结构概述

.loki/
+-- CONTINUITY.md           # 工作内存（每回合读取/更新）
+-- specs/
|   +-- openapi.yaml        # API规范 - 真相来源
+-- queue/
|   +-- pending.json        # 等待认领的任务
|   +-- in-progress.json    # 当前执行的任务
|   +-- completed.json      # 完成的任务
|   +-- dead-letter.json    # 失败的任务以供审查
+-- state/
|   +-- orchestrator.json   # 主状态（阶段、指标）
|   +-- agents/             # 每个代理状态文件
|   +-- circuit-breakers/   # 速率限制状态
+-- memory/
|   +-- episodic/           # 具体交互痕迹（发生了什么）
|   +-- semantic/           # 通用模式（事物如何工作）
|   +-- skills/             # 学习的动作序列（如何做X）
|   +-- ledgers/            # 代理特定检查点
|   +-- handoffs/           # 代理到代理转移
+-- metrics/
|   +-- efficiency/         # 任务效率分数（时间、代理、重试）
|   +-- rewards/            # 结果/效率/偏好奖励
|   +-- dashboard.json      # 滚动指标摘要
+-- artifacts/
    +-- reports/            # 生成的报告/仪表板

详见 references/architecture.md 以获取完整结构和状态模式。

调用

洛基模式                           # 全新启动
洛基模式，PRD在路径/to/prd   # 从PRD启动

技能元数据：

字段	值
触发	“洛基模式” 或 “洛基模式，PRD在 [路径]”
跳过时	需要人工批准，想先审核计划，单个小任务
相关技能	子代理驱动开发、执行计划

参考

详细文档分为参考文件，以便渐进加载：

参考	内容
`references/core-workflow.md`	完整RARV循环、CONTINUITY.md模板、自主规则
`references/quality-control.md`	质量门、反奉承、盲审、基于严重性的阻止
`references/openai-patterns.md`	OpenAI Agents SDK：防护栏、触发线、交接、回退
`references/lab-research-patterns.md`	DeepMind + Anthropic：宪法AI、辩论、世界模型
`references/production-patterns.md`	HN 2025：生产中实际有效的方法、上下文工程
`references/advanced-patterns.md`	2025研究：MAR、Iter-VF、GoalAct、CONSENSAGENT
`references/tool-orchestration.md`	ToolOrchestra模式：效率、奖励、动态选择
`references/memory-system.md`	情景/语义记忆、整合、Zettelkasten链接
`references/agent-types.md`	所有37种代理类型及完整能力
`references/task-queue.md`	队列系统、死信处理、熔断器
`references/sdlc-phases.md`	所有阶段及详细工作流和测试
`references/spec-driven-dev.md`	OpenAPI优先工作流、验证、合约测试
`references/architecture.md`	目录结构、状态模式、引导
`references/mcp-integration.md`	MCP服务器能力和集成
`references/claude-best-practices.md`	Boris Cherny模式、思维模式、分类账
`references/deployment.md`	云部署说明每个提供商
`references/business-ops.md`	业务操作工作流

版本： 2.32.0 | 行数： ~600 | 研究增强：实验室 + HN 生产模式