学者评估

概述

应用学者评估框架来系统化地评估学术和研究工作。该技能提供基于同行评审研究评估标准的结构化评估方法，能够全面分析学术论文、研究提案、文献综述和学术写作的多个质量维度。

何时使用此技能

在以下情况使用此技能：

评估研究论文的质量和严谨性
评估文献综述的全面性和质量
审查研究方法设计
评分数据分析方法
评估学术写作和展示
提供关于学术工作的结构化反馈
根据既定标准对研究质量进行基准测试
评估针对目标出版物的发表准备度
提供定量评估以补充定性同行评审

使用科学示意图增强视觉效果

当使用此技能创建文档时，始终考虑添加科学图表和示意图以增强视觉传达。

如果您的文档尚未包含示意图或图表：

使用scientific-schematics技能生成AI驱动的出版物质量图表
只需用自然语言描述您所需的图表
Nano Banana Pro将自动生成、审查和优化示意图

对于新文档： 默认应生成科学示意图，以可视化文本中描述的关键概念、工作流程、架构或关系。

如何生成示意图：

python scripts/generate_schematic.py "your diagram description" -o figures/output.png

AI将自动：

创建具有适当格式的出版物质量图像
通过多次迭代进行审查和优化
确保可访问性（色盲友好、高对比度）
将输出保存在figures/目录中

何时添加示意图：

评估框架图表
质量评估标准决策树
学术工作流程可视化
评估方法论流程图
评分量规可视化
评估过程图表
任何受益于可视化的复杂概念

有关创建示意图的详细指导，请参阅scientific-schematics技能文档。

评估工作流程

步骤1：初步评估和范围定义

首先识别正在评估的学术工作类型和评估范围：

工作类型：

完整研究论文（实证、理论或综述）
研究提案或协议
文献综述（系统、叙事或范围）
论文或学位论文章节
会议摘要或短文

评估范围：

全面性（所有维度）
针对性（特定方面如方法论或写作）
比较性（与其他工作基准测试）

如果范围不明确，请要求用户澄清。

步骤2：基于维度的评估

系统化地评估工作跨越学者评估维度。对于每个适用的维度，评估质量、识别优势和劣势，并在适当时提供分数。

参考references/evaluation_framework.md获取每个维度的详细标准和量规。

核心评估维度：

问题表述与研究问题
- 研究问题的清晰性和特异性
- 理论或实践意义
- 可行性和范围适当性
- 新颖性和贡献潜力
文献综述
- 覆盖的全面性
- 批判性综合与简单总结的对比
- 研究空白的识别
- 来源的时效性和相关性
- 适当的语境化
方法论与研究设计
- 对研究问题的适当性
- 严谨性和有效性
- 可重复性和透明度
- 伦理考虑
- 局限性承认
数据收集与来源
- 数据的质量和适当性
- 样本大小和代表性
- 数据收集程序
- 来源的可信度和可靠性
分析与解释
- 分析方法的适当性
- 分析的严谨性
- 逻辑连贯性
- 替代解释的考虑
- 结果与主张的一致性
结果与发现
- 展示的清晰性
- 统计或定性严谨性
- 可视化质量
- 解释准确性
- 影响讨论
学术写作与展示
- 清晰性和组织性
- 学术语气和风格
- 语法和机制
- 逻辑流程
- 对目标受众的可访问性
引用与参考文献
- 引用的完整性
- 来源的质量和适当性
- 引用准确性
- 观点平衡
- 引用标准的遵循

步骤3：评分与评级

对于每个评估维度，提供：

定性评估：

关键优势（2-3个具体点）
改进领域（2-3个具体点）
关键问题（如有）

定量评分（可选）： 使用5分制，适当时：

5：优秀 - 示范性质量，可在顶级出版物发表
4：良好 - 强质量，需要少量改进
3：足够 - 可接受质量，有显著改进领域
2：需要改进 - 需要重大修订
1：差 - 需要重大修订的基本问题

要程序化计算聚合分数，请使用scripts/calculate_scores.py。

步骤4：综合整体评估

提供综合评估摘要：

整体质量评估 - 对工作学术价值的整体判断
主要优势 - 跨维度的3-5个关键优势
关键劣势 - 需要关注的3-5个主要领域
优先建议 - 按影响排序的改进列表
发表准备度（如适用） - 对目标出版物的适合性评估

步骤5：提供可操作反馈

将评估结果转化为建设性的、可操作的反馈：

反馈结构：

具体 - 引用确切的章节、段落或页码
可操作 - 提供具体改进建议
优先排序 - 按重要性和可行性排名建议
平衡 - 在解决劣势的同时承认优势
基于证据 - 将反馈基于评估标准

反馈格式选项：

具有逐维度分析的结构化报告
映射到特定文档部分的注释评论
具有关键发现和建议的执行摘要
针对基准标准的比较分析

步骤6：语境考虑

基于以下因素调整评估方法：

发展阶段：

早期草稿：关注概念和结构问题
高级草稿：关注精炼和抛光
最终提交：全面质量检查

目的和场合：

期刊文章：对严谨性和贡献的高标准
会议论文：平衡新颖性与展示清晰性
学生工作：带有发展重点的教育反馈
资助提案：强调可行性和影响

学科特定规范：

STEM领域：强调可重复性和统计严谨性
社会科学：平衡定量和定性标准
人文学科：关注论证和学术解释

资源

references/evaluation_framework.md

每个学者评估维度的详细评估标准、量规和质量指标。在进行评估时加载此参考以访问具体评估指南和评分量规。

快速访问的搜索模式：

“问题表述标准”
“文献综述量规”
“方法论评估”
“数据质量指标”
“分析严谨性标准”
“写作质量检查清单”

scripts/calculate_scores.py

用于从维度级别评分计算聚合评估分数的Python脚本。支持加权平均、阈值分析和分数可视化。

用法：

python scripts/calculate_scores.py --scores <dimension_scores.json> --output <report.txt>

最佳实践

保持客观性 - 基于既定标准而非个人偏好进行评估
全面性 - 系统化地评估所有适用维度
提供证据 - 支持评估，使用工作中的具体示例
保持建设性 - 将劣势框定为改进机会
考虑语境 - 基于工作阶段和目的调整期望
记录理由 - 解释评估和评分背后的推理
鼓励优势 - 明确承认工作做得好的地方
优先反馈 - 首先关注高影响改进

示例评估工作流程

用户请求： “评估这篇关于药物发现机器学习的研究论文”

响应过程：

识别工作类型（实证研究论文）和范围（全面评估）
加载references/evaluation_framework.md获取详细标准
系统化评估每个维度：
- 问题表述：关于ML模型性能的清晰研究问题
- 文献综述：全面覆盖最近ML和药物发现工作
- 方法论：适当的深度学习架构和验证程序
- [继续所有维度…]
计算维度分数和整体评估
综合发现为结构化报告，突出：
- 强方法论和可重复代码
- 需要更多多样数据集评估
- 写作在结果部分可提高清晰性
提供具有具体建议的优先建议

与科学作家集成

此技能与科学作家工作流程无缝集成：

论文生成后：

使用学者评估作为同行评审的替代或补充
生成SCHOLAR_EVALUATION.md，伴随PEER_REVIEW.md
提供定量分数以跟踪跨修订的改进

修订期间：

在解决反馈后重新评估特定维度
跟踪多个版本上的分数改进
识别需要关注的持续劣势

发表准备：

评估针对目标期刊/会议的准备度
提交前识别差距
根据发表标准进行基准测试

注意事项

评估严谨性应匹配工作的目的和阶段
某些维度可能不适用于所有工作类型（例如，纯理论论文的数据收集）
应考虑学术规范中的文化和学科差异
此框架补充而非替代领域特定专业知识
与peer-review技能结合使用进行全面评估

引用

此技能基于学者评估框架引入：

Moussa, H. N., Da Silva, P. Q., Adu-Ampratwum, D., East, A., Lu, Z., Puccetti, N., Xue, M., Sun, H., Majumder, B. P., & Kumar, S. (2025). ScholarEval: Research Idea Evaluation Grounded in Literature. arXiv preprint arXiv:2510.16234. https://arxiv.org/abs/2510.16234

摘要： ScholarEval是一个检索增强的评估框架，基于两个基本标准评估研究想法：可靠性（基于现有文献提出方法的实证有效性）和贡献（相对于先前研究，想法在不同维度上的推进程度）。该框架显著覆盖专家注释的评估点，并在评估可操作性、深度和证据支持方面始终优于基线系统。