目的

exercise-designer 技能帮助教育工作者创建多样化、基于证据的实践练习，这些练习针对特定的学习目标，并应用认知科学中经过验证的策略。这项技能设计了适当难度递进、间隔重复机会和清晰评估标准的练习。

宪法 v4.0.1 对齐：这项技能实现了评估优先的练习设计——在创建练习之前定义成功标准，集成第 IIb 部分（AI 三角色框架）共同学习练习类型，并与第 IIa 部分（4 层方法）对齐，以实现层次适当的练习。

何时激活

使用这项技能时：

教育工作者需要 Python 概念的练习练习
设计家庭作业或问题集
创建超出简单编码问题的多种练习类型
应用基于证据的学习策略（检索练习、间隔重复）
建立练习序列的难度递进
生成练习的测试用例和评分标准
评估现有练习的教育效果

输入

必需：

学习目标：学习者应该能够做什么
概念/主题：要练习的 Python 概念（例如，“循环”，“字典”）

可选：

目标受众：初学者 | 中级 | 高级
练习数量：要生成的数量
练习类型：首选类型（填空、调试、从头构建等）
时间限制：练习的总时间
先前概念：用于间隔重复的先前学习概念

评估优先练习设计（宪法 v3.1.2）

关键工作流程：

评估优先：在设计练习之前审查章节规范中的成功标准
目标第二：确保练习针对导致评估的学习目标
练习第三：设计练习活动，为学生成功评估做准备
验证第四：验证练习是否衡量向定义的成功标准的进步

模板：

### 练习设计（评估优先）

**来源**：`specs/part-X/chapter-Y/spec.md` 的章节规范

**规范中成功的评估**：
1. 75%+ 编写有效的规范（通过最终练习测量）
2. 80%+ 识别模糊需求（通过测验测量）

**学习目标**（来自规范）：
- LO-001：编写清晰的规范
- LO-002：识别模糊需求

**实现目标 → 评估的练习设计**：
- Ex-1：填写不完整的规范（LO-001，初级难度）
- Ex-2：调试模糊规范（LO-002，核心难度）
- Ex-3：从头开始编写完整的规范（LO-001，挑战难度）→ 测试评估 #1
- Ex-4：评估规范清晰度（LO-002，挑战难度）→ 测试评估 #2

不要在没有以下情况下创建练习：

✅ 参考经批准的规范和成功评估
✅ 明确的映射：练习 → 目标 → 评估
✅ 验证练习为评估成功做准备

流程

第 1 步：澄清学习目标和评估

了解学习者应该实现的目标：

需要展示的具体技能
所需的理解深度（回忆 vs. 应用 vs. 创建）
与布鲁姆分类学水平的联系
章节规范中的成功评估（什么定义了掌握？）

第 2 步：加载练习类型参考

阅读练习类型模式以获得多样性：

Read reference/exercise-types.md

可用类型：

填空：专注于特定概念，提供脚手架
调试此：发展错误识别技能
从头构建：测试独立解决问题
扩展代码：练习增量开发
追踪执行：测试心理执行模型
解释代码：促进更深入的理解
重构：教授代码质量和 Pythonic 模式
帕森问题：专注于逻辑流程
AI 协作（NEW）：练习与 AI 作为共同学习伙伴一起工作

AI 协作练习类型（第 IIb 部分，宪法 v4.0.1）

关键：AI 本土练习必须教授学生与 AI 双向共同学习伙伴关系（根据第 IIb 部分强制功能），而不仅仅是独立工作。

AI 协作练习类别：

1. 规范到代码与 AI（AI 作为学生）：

### 练习：用户认证

**任务**：编写一个规范，首次尝试即可产生工作的 OAuth 实现。

**说明**：
1. 为 OAuth 认证编写详细规范
2. 向 AI 提供规范
3. 评估 AI 生成的代码
4. 如果代码与意图不匹配，识别规范中的差距

**评估**：
- 规范清晰度（5 分）：无歧义需求
- 完整性（5 分）：所有边缘情况都已指定
- AI 输出质量（5 分）：代码无需澄清即可匹配规范
- 反思（5 分）：您从 AI 的响应中学到了什么关于规范编写的知识

2. 收敛迭代（AI 作为同事）：

### 练习：优化数据库查询

**任务**：与 AI 一起迭代以提高查询性能。

**说明**：
1. 从提供的慢查询开始
2. 向 AI 请求改进建议
3. 评估 AI 的建议（不要盲目接受）
4. 实施所选方法
5. 文档记录您与 AI 建议相比所做的决定

**评估**：
- 迭代质量（5 分）：清晰的来回细化
- 决策制定（5 分）：战略选择解释
- 收敛（5 分）：比任何一方单独提供的更好的解决方案
- 验证（5 分）：验证 AI 的建议正确工作

3. 从 AI 学习模式（AI 作为教师）：

### 练习：发现 Pythonic 模式

**任务**：从 AI 建议中学习新模式。

**说明**：
1. 使用您当前的方法实现解决方案
2. 向 AI 询问："你会如何改进这个以提高 Pythonicity？"
3. 分析 AI 的建议
4. 解释 AI 教给您的模式以及为什么它更好
5. 将模式应用于 2 个新问题

**评估**：
- 理解（5 分）：清晰解释 AI 建议的模式
- 应用（5 分）：成功应用于新环境
- 评估（5 分）：确定模式何时适用/不适用
- 反思（5 分）：您学到了什么以前不知道的东西

4. AI 输出验证（关键技能）：

### 练习：验证 AI 生成的代码

**任务**：验证 AI 生成的认证代码的安全性。

**说明**：
1. 审查提供的 AI 生成的代码
2. 识别安全漏洞
3. 编写测试用例以暴露问题
4. 提出修复措施
5. 文档记录您使用的验证清单

**评估**：
- 漏洞检测（5 分）：发现关键问题
- 测试覆盖率（5 分）：测试暴露问题
- 修复质量（5 分）：安全改进
- 验证过程（5 分）：有系统的方法文档记录

5. 从 AI 反馈中细化规范（双向学习）：

### 练习：迭代规范改进

**任务**：根据 AI 澄清问题改进规范。

**说明**：
1. 编写初始规范
2. AI 提出澄清问题（或者您模拟 AI 可能会问的问题）
3. 改进规范以主动回答问题
4. 比较初始与最终规范质量

**评估**：
- 初始规范（2 分）：基线质量
- 问题预期（3 分）：识别模糊性
- 细化质量（3 分）：更清晰的最终规范
- 学习（2 分）：记录了什么使规范清晰

AI 本土内容的练习平衡：

50-60%：传统的独立练习
30-40%：AI 协作练习（三角色）
10-20%：验证/验证练习

第 3 步：加载基于证据的策略

阅读要应用的认知科学策略：

Read reference/evidence-based-strategies.md

关键策略：

检索练习：从记忆中回忆加强学习
间隔重复：分散练习时间
交错：混合练习类型和概念
阐述：问“为什么”和“如何”问题
理想困难：适当的挑战水平

第 4 步：设计练习多样性

使用多种类型创建 3-5 个练习：

混合练习类型（避免 5 个相同的练习）：

练习 1：填空（快速热身）
练习 2：调试此（错误识别）
练习 3：从头构建（应用）
练习 4：解释代码（阐述）
练习 5：扩展代码（集成）

应用交错：混合新旧概念：

60% 当前概念
30% 最近概念（最后 1-2 课）
10% 旧概念（3+ 课前）

第 5 步：建立难度递进

加载难度递进指南：

Read reference/difficulty-progression.md

从简单到困难排列练习：

简单：高脚手架，清晰结构
中等：适度脚手架，基于规范
困难：最小脚手架，开放式

布鲁姆递进：

记忆/理解（追踪执行，解释）
应用（填空，标准问题）
分析（调试此，比较方法）
评估/创建（从头构建，重构）

第 6 步：纳入间隔重复

加载间隔重复模式：

Read reference/spaced-repetition.md

包括先前概念的复习：

确定之前课程的概念
设计结合新旧概念的练习
标记练习以跟踪练习的概念（用于跟踪）

示例：

第 5 课（当前：循环）
练习 1：循环基础（新）
练习 2：循环 + 列表（复习第 2 课）
练习 3：循环 + 条件（复习第 3 课）
练习 4：循环 + 函数（复习第 4 课）

第 7 步：创建测试用例

生成全面的测试用例：

Read templates/exercise-template.yml

包括：

正常情况：典型使用（60%）
边缘情况：空输入，边界，特殊情况（30%）
错误情况：无效输入，异常（10%）

使用脚本验证测试覆盖率：

python .claude/skills/exercise-designer/scripts/generate-test-cases.py exercise.yml

脚本将：

分析现有测试用例覆盖范围
建议缺少的测试类型
提供特定于概念的建议
检查正常/边缘/错误情况平衡

第 8 步：定义评估标准

加载标准模板：

Read templates/rubric-template.yml

创建带有标准的评分标准：

正确性（40%）：产生正确的输出
代码质量（30%）：可读性强，结构良好
效率（20%）：适当的方法
错误处理（10%）：考虑边缘情况

每个标准都有级别：优秀，合格，发展中，不足

第 9 步：添加渐进式提示

提供 3 个级别的提示：

第 1 级（温和）：不给出答案的方向
第 2 级（适度）：更具体的指导
第 3 级（明确）：几乎完整的解决方案

示例：

练习：编写一个函数来在列表中查找重复项

提示 1："考虑使用集合来跟踪您已经看过的项目"
提示 2："遍历列表，将项目添加到集合中，检查项目是否已经在集合中"
提示 3："使用：seen = set(); for item in list: if item in seen..."

第 10 步：验证和完善

检查练习质量：

[ ] 明确陈述的学习目标
[ ] 适合目标受众的适当难度
[ ] 完整的指令（学习者知道做什么）
[ ] 提供测试用例（正常 + 边缘 + 错误）
[ ] 至少应用了 2 个基于证据的策略
[ ] 练习在估计时间内可实现
[ ] 包括评分标准或评估标准

输出格式

以结构化的 markdown 或 YAML 提供练习集：

# 练习集：[主题]

**学习目标**：
- [目标 1]
- [目标 2]

**预计时间**：[X 分钟总计]
**基于证据的策略**：[应用策略列表]

---

## 练习 1：[标题]

**类型**：[填空 | 调试此 | 等。]
**难度**：[简单 | 中等 | 困难]
**时间**：[X 分钟]
**策略**：[检索练习等。]

### 说明

[要做什么的清晰描述]

### 起始代码（如果适用）

```python
[代码在这里]

测试用例

输入：[示例] 预期：[输出] 测试：正常情况
输入：[] 预期：[输出] 测试：边缘情况 - 空输入

提示

提示 1：[温和指导] 提示 2：[更具体] 提示 3：[明确方法]

评分标准

正确性（4 分）：通过所有测试用例
代码质量（3 分）：可读性强，命名良好
效率（2 分）：合理的方法
错误处理（1 分）：处理边缘情况

[重复练习 2-5]

间隔重复笔记

这套练习练习：

新：[当前概念]
复习：[之前课程的概念]

答案键

[所有练习的解决方案及解释]


## 示例

### 示例 1：为列表方法设计练习

**输入**："为初学者创建 5 个练习，练习列表方法（追加，移除，扩展）"

**流程**：
1. 确定学习目标：正确使用列表方法，理解何时使用每个方法
2. 选择多样性：填空，调试此，从头构建，解释代码，追踪执行
3. 难度递进：简单 → 中等 → 中等 → 困难 → 中等
4. 应用策略：检索练习（无参考），交错（混合方法类型）
5. 添加测试用例和评分标准
6. 包括提示

**输出**：5 个练习集，具有多样性，递进，测试用例和应用策略

---

### 示例 2：评估现有练习集

**输入**："评估这 10 个循环练习的教育效果"

**流程**：
1. 检查多样性："所有 10 个都是从头构建 - 需要更多多样性"
2. 检查递进："难度从练习 2 到 3 跳跃太快"
3. 检查策略："没有间隔重复 - 所有练习只使用循环，没有先前概念"
4. 检查测试用例："只有 3 个练习有测试用例，缺少边缘情况"
5. 提供具体建议

**输出**：详细评估和可行的改进

---

### 示例 3：设计具有间隔重复的练习

**输入**："为字典（第 4 课）创建练习，复习列表（第 2 课）和条件（第 3 课）"

**流程**：
1. 主要概念：字典方法和操作
2. 次要概念：列表，条件（复习）
3. 设计结合概念的练习：
   - 练习 1：字典基础（新）
   - 练习 2：字典 + 条件（复习）
   - 练习 3：字典 + 列表（复习）
   - 练习 4：全部三个结合
4. 标记以跟踪：主要=字典，次要=[列表，条件]

**输出**：具有明确间隔重复的练习集

## 常见模式

### 模式 1：概念介绍集

```markdown
练习 1：填空（非常容易，高脚手架）
练习 2：追踪执行（理解行为）
练习 3：从头构建（简单应用）
练习 4：调试此（识别错误）
练习 5：扩展代码（与先前知识集成）

模式 2：混合复习集

练习 1：当前概念仅（60%）
练习 2：当前 + 最近概念（30%）
练习 3：当前概念仅（60%）
练习 4：当前 + 旧概念（10%）
练习 5：当前 + 最近 + 旧（集成）

模式 3：渐进挑战集

练习 1：指导（提供 70% 代码）
练习 2：结构化（提供 50% 代码）
练习 3：规范（明确要求）
练习 4：开放式（最少指导）
练习 5：扩展（在练习 3 基础上构建）

验证清单

在最终确定练习集之前：

[ ] 3-5 个练习（不要太少，不要压倒性）
[ ] 多种练习类型（不是全部相同）
[ ] 清晰的难度递进（简单 → 困难）
[ ] 至少明确应用了 2 个基于证据的策略
[ ] 每个练习都有测试用例（正常 + 边缘 + 错误）
[ ] 提供评分标准或评估标准
[ ] 如适用，包括间隔重复（复习先前概念）
[ ] 指令清晰完整
[ ] 练习在估计时间内可实现
[ ] 每个练习都有明确的学习目标

接受检查

[ ] 存在难度带：入门（简单），核心（中等），挑战（困难）
[ ] 提供三个级别的提示（温和，适度，明确）
[ ] 附有标准和分数的评分标准；映射到目标

难度带示例

入门：热身填空（L2-理解）
核心：根据规范实现函数（L3-应用）
挑战：重构以提高性能（L4-分析/L5-评估）

参考资料

按需加载的支持文档：

reference/exercise-types.md - 填空，调试，从头构建等。
reference/evidence-based-strategies.md - 检索，间隔，交错，阐述
reference/difficulty-progression.md - 脚手架，布鲁姆水平，PRIME 框架
reference/spaced-repetition.md - 螺旋课程，混合集，最佳间隔

错误处理

如果验证失败：

报告具体问题（例如，“所有练习都是同一类型”，“没有提供测试用例”）
建议补救措施（例如，“添加调试此和追踪执行练习”）
停止并要求用户干预（硬失败模式）

示例必须满足质量标准：多样化类型，适当的难度，清晰的目标，全面的测试用例。