name: 内容评估框架 description: 此技能应用于评估书籍章节、课程或教育内容的质量。它提供了一个系统化的6类别评分标准,包含加权评分(技术准确性30%、教学有效性25%、写作质量20%、结构与组织15%、AI优先教学10%、宪法合规性通过/不通过)和多层级评估(优秀/良好/需改进/不足)。在迭代起草过程中、内容完成后、按需审查请求时或验证阶段前使用此技能。 version: “2.1.0” constitution_alignment: “v4.0.1”
内容评估框架
此技能提供了一个全面、系统化的评分标准,用于评估教育书籍章节和课程,并具有可量化的质量标准。
宪法对齐:v4.0.1 强调:
- 原则1:规范优先(“规范即新语法”)
- 章节 IIa:泛大学4层教学法
- 章节 IIb:AI三角色框架(双向共同学习)
- 8项基本原则:包括事实准确性、结构连贯性、渐进复杂性
- 九大支柱(章节 I):AI CLI、Markdown、MCP、AI优先IDE、跨平台、TDD、SDD、可组合技能、云原生
目的
通过6个加权类别评估教育内容,以确保:
- 技术正确性和代码质量
- 有效的教学设计和学习成果
- 针对目标受众的清晰、易懂的写作
- 恰当的结构和组织
- AI增强学习原则(与AI一起学习,而非从AI生成)
- 宪法合规性和标准遵循
何时使用此技能
在多个检查点调用此评估框架:
- 迭代起草期间 - 中期质量检查,及早发现问题
- 课程/章节完成后 - 在进入下一个内容单元前进行全面评估
- 按需审查请求时 - 当用户明确要求进行质量评估时
- 验证阶段前 - 作为SDD验证阶段工作流程的一部分,用于最终批准
评估方法
评分系统
多层级评估:
- 优秀 (90-100%) - 超出标准,质量典范
- 良好 (75-89%) - 满足所有标准,可能有小的改进空间
- 需改进 (50-74%) - 满足部分标准,但需要重大修订
- 不足 (<50%) - 未达到最低标准,需要重大返工
加权类别
评估使用6个类别,权重如下:
| 类别 | 权重 | 关注领域 |
|---|---|---|
| 技术准确性 | 30% | 代码正确性、类型提示、解释、示例按所述工作 |
| 教学有效性 | 25% | 先展示后解释模式、渐进复杂性、高质量练习 |
| 写作质量 | 20% | 可读性(Flesch-Kincaid 8-10)、语气、清晰度、年级水平适宜性 |
| 结构与组织 | 15% | 学习目标达成、逻辑流程、适当长度、过渡 |
| AI优先教学 | 10% | 展示共同学习伙伴关系、展示三角色框架、九大支柱对齐、强调规范即语法 |
| 宪法合规性 | 通过/不通过 | 必须通过所有不可协商的宪法要求,包括九大支柱对齐(门槛) |
总加权分数计算:
最终分数 = (技术准确性 × 0.30) + (教学有效性 × 0.25) + (写作质量 × 0.20) +
(结构与组织 × 0.15) + (AI优先教学 × 0.10)
宪法合规性: 必须达到"通过"状态。如果"不通过",则无论加权分数如何,内容都无法继续。
如何进行评估
步骤1:准备上下文
评估前,收集:
- 被评估的内容(lesson.md、chapter.md 或章节文件)
- 来自
specs/<feature>/的相关规范、计划和任务文件 - 宪法文件(
.specify/memory/constitution.md) - 内容单元的学习目标和成功标准
- 使用的输出样式模板(
.claude/output-styles/lesson.md或类似文件)
步骤2:加载详细评分标准
阅读每个类别的详细层级标准:
读取:references/rubric-details.md
此文件包含为6个类别中的每一个定义优秀/良好/需改进/不足的具体标准。
步骤3:首先评估宪法合规性
宪法合规性是一个门槛 - 如果内容不符合宪法要求,则无法继续。
使用宪法检查清单:
读取:references/constitution-checklist.md
评估所有不可协商的原则和要求。标记为通过或不通过,并注明具体违规情况。
如果宪法合规性 = 不通过: 停止评估并立即报告违规情况。内容必须在继续前进行修订。
如果宪法合规性 = 通过: 继续加权类别评估。
步骤4:为每个加权类别评分
对于5个加权类别中的每一个(技术准确性、教学有效性、写作质量、结构与组织、AI优先教学):
- 查看具体标准 来自该类别的
rubric-details.md - 根据每个层级的标准评估内容
- 分配层级(优秀/良好/需改进/不足)及分数范围
- 记录具体证据 - 引用示例、注明行号、引用具体段落
- 提供改进建议 - 具体、可操作的反馈
步骤5:计算加权分数
应用加权公式:
最终分数 = (技术准确性 × 0.30) + (教学有效性 × 0.25) + (写作质量 × 0.20) +
(结构与组织 × 0.15) + (AI优先教学 × 0.10)
将层级分数转换为数值:
- 优秀: 95%
- 良好: 82%
- 需改进: 62%
- 不足: 40%
(如果合理,也可使用层级范围内的具体数值分数)
步骤6:生成评估报告
使用结构化评估模板:
读取:references/evaluation-template.md
完成所有部分:
- 执行摘要 - 总体分数、层级、通过/不通过状态
- 类别分数 - 显示每个类别分数、层级和权重贡献的表格
- 详细发现 - 每个类别的基于证据的评估
- 优势 - 内容做得好的地方(具体示例)
- 待改进领域 - 带有建议的优先问题列表
- 宪法合规性状态 - 通过/不通过及具体原则检查
- 可操作的后续步骤 - 改进内容的具体任务
步骤7:传达结果
呈现评估报告,包含:
- 明确结论 - 通过/不通过及总体质量层级
- 基于证据的反馈 - 具体引用和行号
- 优先改进项 - 最关键的问题优先
- 鼓励 - 认可优势和努力
评估最佳实践
客观且基于证据
- 引用被评估内容的具体段落
- 参考行号或章节标题
- 对照客观的评分标准,而非主观偏好
- 尽可能使用具体指标(字数、可读性分数等)
关注标准,而非完美
- 评级为"良好"(75-89%)的内容经过少量润色即可发布
- 评级为"优秀"(90-100%)的内容超出标准,但非必需
- 优先将"需改进" → “良好"的改进,而非"良好” → “优秀”
提供可操作的反馈
- 不要只说"提高清晰度" - 具体说明哪些句子不清晰并建议重写
- 不要只说"添加示例" - 建议有助于理解的具体示例类型
- 优先排序建议:关键(阻碍性问题)→ 重要 → 锦上添花
尊重学习过程
- 认识到迭代改进 - 草稿经过多次修改而演变
- 庆祝进步和优势
- 建设性地提出批评,视为成长机会
- 记住:目标是帮助创建优秀的教育内容,而非设限
质量门槛和阈值
最低接受阈值
- 宪法合规性: 必须为通过(门槛)
- 总体加权分数: 必须 ≥ 75%(良好或更好)
- 无类别低于50%: 每个独立类别必须至少达到"需改进"层级
建议发布标准
- 宪法合规性: 通过
- 总体加权分数: ≥ 82%(良好层级)
- 技术准确性: ≥ 75%(良好层级) - 对可信度至关重要
- 教学有效性: ≥ 75%(良好层级) - 对学习成果至关重要
典范内容(可选)
- 总体加权分数: ≥ 90%(优秀层级)
- 至少3个类别达到优秀层级
- 无类别低于良好层级
常见评估场景
场景1:中期草稿检查(迭代)
上下文: 作者请求对部分草稿提供反馈 方法:
- 关注基础问题(结构、学习目标、概念脚手架)
- 及早标记关键问题(技术错误、宪法违规)
- 为剩余章节提供指导
- 不期望完美 - 优先考虑内容完整性和正确性
场景2:完成审查
上下文: 作者认为内容已完成并准备验证 方法:
- 对所有6个类别进行全面评估
- 计算最终加权分数
- 检查所有质量门槛和阈值
- 提供包含优先改进项的全面报告
- 确定内容是否符合发布标准
场景3:验证前质量门槛
上下文: 内容进入SDD验证阶段 方法:
- 验证宪法合规性(门槛)
- 确认最低接受阈值(≥75%)
- 验证所有类别分数达到最低要求
- 生成带有证据的通过/不通过建议
- 如果未通过门槛:返回实施阶段并附带具体修订任务
场景4:按需抽查
上下文: 用户询问特定章节"这个看起来怎么样?" 方法:
- 评估该章节的相关类别(可能不是全部6个)
- 就具体问题提供快速反馈
- 突出任何关键问题
- 建议改进,无需完整的正式报告
- 根据上下文判断评估深度
资源和参考资料
此技能包含详细的参考资料:
references/rubric-details.md- 所有6个类别的全面层级标准,包含具体指标references/constitution-checklist.md- 用于宪法合规性评估的通过/不通过检查清单references/evaluation-template.md- 用于一致评估报告的结构化模板
评估期间根据需要加载这些参考资料,以确保一致性和彻底性。
示例评估流程
用户请求: “请评估此课程草稿:apps/learn-app/docs/chapter-3/lesson-2.md”
评估过程:
- 读取内容:
apps/learn-app/docs/chapter-3/lesson-2.md - 加载上下文: 规范、计划、宪法、学习目标
- 检查宪法合规性:
references/constitution-checklist.md- 结果:通过(所有不可协商项均满足)
- 加载详细评分标准:
references/rubric-details.md - 评估每个类别:
- 技术准确性:良好 (80%) - 代码有效,类型提示有少量缺失
- 教学有效性:优秀 (92%) - 强大的脚手架,优秀的练习
- 写作质量:良好 (78%) - 写作清晰,可读性有小的改进空间
- 结构与组织:良好 (85%) - 流程良好,所有学习目标均达成
- AI优先教学:需改进 (65%) - AI练习存在但指导薄弱
- 计算加权分数:
- (80×0.30) + (92×0.25) + (78×0.20) + (85×0.15) + (65×0.10) = 81.55%
- 最终层级:良好 (81.55%)
- 加载模板:
references/evaluation-template.md - 生成报告,包含发现、优势、改进项、后续步骤
- 传达结论: “良好 (81.55%) - 对AI优先教学部分进行少量改进后即可发布”
使用此技能为所有教育内容维护一致、客观、基于证据的质量标准。