name: 评估准则 description: 使用当需要明确的质量标准和评分尺度来一致地评估工作质量、客观比较备选方案、设置接受阈值、减少主观偏见，或当用户提到 rubric、评分标准、质量标准、评估框架、评分者间信度或评分/评估工作时。

评估准则

目的

评估准则提供明确的标准和性能尺度，以一致、公平、透明地评估质量。此技能指导您完成准则设计——从确定有意义的标准到编写清晰的性能描述——以实现客观评估、减少偏见、对齐团队标准并提供可操作的反馈。

何时使用

在以下情况时使用此技能：

质量评估：代码审查、设计评审、写作评估、产品发布、学术评分
竞争性评估：供应商选择、招聘候选人、资助提案、推介竞赛、奖项评审
进度跟踪：冲刺评审、技能评估、培训完成、认证考试
标准化：多个评审者需要一致评分（评分者间信度），减少主观偏见
反馈交付：提供清晰、可操作的反馈，与特定标准相关（不仅仅是“好”或“需要改进”）
阈值设置：定义最低可接受质量（例如，“在所有标准上得分必须≥3/5才能通过”）
流程改进：识别系统性弱点（许多提交在同一标准上得分低 → 需要更好指导）

触发短语：“rubric”、“评分标准”、“评估框架”、“质量标准”、“如何评分这个”、“什么样子算好”、“一致评估”、“评分者间信度”

是什么？

一个评估准则是结构化的评分工具，包含：

标准：正在评估的质量维度（例如，清晰度、完整性、原创性）
尺度：数值或定性级别（例如，1-5、新手-专家、低于/达到/超出）
描述符：为每个标准的每个级别明确描述什么样子
加权（可选）：每个标准的重要性（有些比其他的更关键）

核心好处：

一致性：相同的工作由不同评审者评分相似（评分者间信度）
透明度：被评估者提前知道期望，可以自我评估
可操作反馈：具体改进领域，不是模糊批评
公平性：减少偏见，关注可观察的工作而不是主观印象
效率：使用清晰的基准更快评估，减少争论

快速示例：

场景：评估技术博客文章

准则（1-5尺度）：

标准	1（差）	3（足够）	5（优秀）
技术准确性	多个事实错误，误导性	大部分正确，小错误	完全准确，技术严谨
清晰度	混乱，术语过多，结构差	对专家清晰，有一些结构	对目标受众可访问，组织良好
实用价值	无可操作指导，仅理论	一些例子，有限适用性	具体例子，立即适用
原创性	重复常识，无新见解	一些新视角，基于现有	新颖方法，推进理解

评分：文章A得分[4, 5, 3, 2] = 平均3.5。文章B得分[5, 4, 5, 4] = 平均4.5 → 文章B质量更高。

文章A反馈：“强清晰度（5）和良好准确性（4），但需要更多实际例子（3）并提供较少原创见解（2）。添加代码示例并探索边缘案例以改进。”

工作流程

复制此检查清单并跟踪进度：

准则开发进度：
- [ ] 步骤1：定义目的和范围
- [ ] 步骤2：识别评估标准
- [ ] 步骤3：设计尺度
- [ ] 步骤4：编写性能描述符
- [ ] 步骤5：测试和校准
- [ ] 步骤6：使用和迭代

步骤1：定义目的和范围

澄清正在评估什么、谁评估、谁使用结果、什么决策依赖于分数。参考resources/template.md了解范围定义模板。

步骤2：识别评估标准

头脑风暴质量维度，优先考虑最重要/可观察的，平衡覆盖性与简单性（典型4-8个标准）。参考resources/template.md了解头脑风暴框架。

步骤3：设计尺度

选择级别数量（1-5、1-4、1-10）、尺度类型（数值、定性）、锚点（每个级别意味着什么？）。参考resources/methodology.md了解尺度选择指导。

步骤4：编写性能描述符

为每个标准×级别，编写可观察的描述，描述该性能的样子。参考resources/template.md了解编写指南。

步骤5：测试和校准

让多个评审者对样本工作评分，比较分数，讨论差异，改进准则。参考resources/methodology.md了解评分者间信度测试技术。

步骤6：使用和迭代

应用准则，收集评审者和被评估者的反馈，根据需要修订标准/描述符。使用resources/evaluators/rubric_evaluation_rubrics.json验证。最低标准：平均得分≥3.5。

常见模式

模式1：分析性准则（最常见）

结构：多个标准（行）、多个级别（列）、每个单元格的描述符
使用场景：需要详细反馈、希望跨维度查看性能、诊断评估
优点：具体反馈、按标准识别优势/弱点、高信度
缺点：创建和使用耗时、可能感觉简化
示例：代码审查准则（正确性、效率、可读性、可维护性 × 1-5尺度）

模式2：整体性准则

结构：单一整体分数，描述符整合多个标准
使用场景：快速整体判断、总结性评估、标准难以分离
优点：快速、直观、捕捉总体质量
缺点：可操作反馈较少、信度较低、无法诊断具体弱点
示例：文章整体评分（1=差文章、3=足够文章、5=优秀文章，带有详细描述符）

模式3：单点准则

结构：列出标准，仅有“达到标准”描述符，有空间记录超出/低于
使用场景：成长心态反馈、鼓励自我评估、感觉不太惩罚性
优点：强调改进而非缺陷、创建更简单、鼓励对话
缺点：精确度较低、需要补充书面反馈
示例：设计评审（列出标准如“视觉层次”、“可访问性”，记录“+清晰焦点、-对比度差”）

模式4：清单（二进制）

结构：是/否项列表，必须满足才能接受
使用场景：合规检查、最低质量关卡、通过/失败决策
优点：非常清晰、客观、易于使用
缺点：无渐变、忽略超出基本的质量、可能感觉僵化
示例：拉取请求清单（测试通过？代码整理？文档更新？安全评审？）

模式5：基于标准的准则

结构：标准与学习目标/能力相关，级别=掌握程度
使用场景：教育评估、技能认证、培训评估、标准参照
优点：与标准对齐、显示掌握进度、诊断性
缺点：需要清晰标准、设计可能复杂
示例：数据科学技能（熟练度：数据清洗、建模、可视化、沟通 × 新手/熟练/专家）

防护措施

关键要求：

标准必须可观察和可测量：不是“好态度”（主观），而是“准时到达、自愿任务、帮助队友”（可观察）。模糊标准导致不可靠评分。测试：两个独立评审者能一致评分此标准吗？
描述符必须清晰区分级别：每个级别应有与相邻级别的具体差异（不仅仅是“更好”或“更多”）。避免：“5=非常好、4=好、3=可以”。更好：“5=零bug，满足所有要求、4=1-2小bug，满足90%要求、3=3+ bug或缺少关键功能”。
使用适当的尺度粒度：1-3太粗糙（难以区分）、1-10太精细（虚假精度，难以定义所有级别）。最佳点：1-4（强制选择，无中间）或1-5（允许中立中间）。匹配粒度到实际可观察差异。
平衡全面性与简单性：更多标准=更详细反馈但使用时间更长。目标4-8个标准覆盖基本质量维度。如果>10个标准，考虑分组或优先排序。
为评分者间信度校准：让多个评审者评分相同工作，测量一致性（Kappa、ICC）。如果<70%一致性，改进描述符。安排校准会话，评审者讨论差异。
提供每个级别的示例：抽象描述符模糊。包括具体工作示例（锚定论文、参考设计、代码样本）以校准评审者。
在评估前使准则可访问：如果被评估者只在被评分后才看到准则，这仅仅是评分而非指导。提前分享准则，以便人们知道期望并可以自我评估。
适当加权标准：并非所有标准同等重要。如果“安全”比“代码风格”更重要，加权它（安全×3，风格×1）。或使用阈值（在安全上得分必须≥4才能通过，无论其他分数如何）。

常见陷阱：

❌ 主观语言：“显示努力”、“创造性”、“专业”——没有具体描述符无法观察
❌ 重叠标准：“清晰度”和“组织”经常混淆——明确定义边界
❌ 隐藏期望：准则未提及X，但评审者因缺少X而处罚——记录所有标准
❌ 中心倾向偏差：评审者避免极端（总是得分3/5）——使用偶数尺度（1-4）强制选择
❌ 光环效应：一个标准高分偏见其他标准向上——在查看其他标准前独立评分每个标准
❌ 准则漂移：描述符随时间侵蚀，评审者解释不同——需要定期重新校准

快速参考

关键资源：

resources/template.md：目的定义、标准头脑风暴、尺度选择、描述符模板、准则格式
resources/methodology.md：尺度设计原则、描述符编写技术、评分者间信度测试、偏见缓解
resources/evaluators/rubric_evaluation_rubrics.json：准则设计的质量标准（标准清晰度、尺度适当性、描述符特异性）

尺度选择指南：

尺度	使用时机	优点	缺点
1-3	需要快速分类、清晰层级	快速、强制清晰决策	太粗糙、反馈较少
1-4	想要强制选择（无中间）	避免中心倾向、清晰区分	无中性选项、感觉二进制
1-5	通用、最常见	允许中性、熟悉、良好粒度	中心倾向偏差（每个人都得3）
1-10	需要精细渐变、大样本	最大区分、统计分析	虚假精度、难以区分相邻级别
定性（新手/熟练/专家）	教育、技能发展	直观、成长导向	较少定量、更难聚合
二进制（是/否、通过/失败）	合规、把关	客观、简单	无渐变、忽略质量差异

标准类型：

产品标准：评估工件本身（正确性、清晰度、完整性、美观性、性能）
流程标准：工作如何完成（方法论遵循、协作、迭代、时间管理）
影响标准：结果/效果（用户满意度、商业价值、学习成就）
元标准：质量的质量（文档、可测试性、可维护性、可扩展性）

评分者间信度基准：

<50%一致性：准则不可靠，需要重大修订
50-70%一致性：边缘，改进描述符并校准评审者
70-85%一致性：良好，大多数使用可接受
>85%一致性：优秀，高度可靠评分

典型准则开发时间：

简单准则（3-5个标准、1-4尺度、已知领域）：2-4小时
标准准则（5-7个标准、1-5尺度、一些复杂性）：6-10小时 + 校准会话
复杂准则（8+个标准、多个尺度、新领域）：15-25小时 + 多次校准轮次

何时升级超越准则：

高风险决策（招聘、录取、奖项）→ 添加结构化面试、作品集、多方法评估
主观/创意工作（艺术、诗歌、设计）→ 补充准则与批评、讨论、专家判断
复杂整体判断（领导力、文化契合）→ 准则有帮助但不捕捉一切，谨慎使用 → 准则是工具，不是人类判断的替代品。用于结构化思考，而非机械化决策。

所需输入：

工件类型（正在评估什么？文章、代码、设计、提案？）
标准（要评估的质量维度，典型4-8个）
尺度（默认1-5，或指定1-4、1-10、定性标签）

产生输出：

evaluation-rubrics.md：目的、标准定义、带描述符的尺度、使用说明、加权/阈值、校准笔记

评估准则Skill evaluation-rubrics