机器学习实验结果分析Skill results-analysis

本技能用于系统分析和生成机器学习与人工智能实验的结果,包括数据加载、统计验证、可视化生成和论文结果部分编写,关键词:机器学习、人工智能、数据分析、统计检验、可视化、论文写作。

机器学习 0 次安装 0 次浏览 更新于 3/13/2026

name: results-analysis description: 此技能应用于用户请求“分析实验结果”、“生成结果部分”、“实验统计”、“比较模型性能”或提及将实验数据连接到论文写作时。提供全面指导,用于分析ML/AI实验结果并生成论文就绪内容。 tags: [研究, 分析, 统计, 可视化, 论文写作] version: 0.1.0

ML/AI研究的结果分析

一个系统的实验结果分析工作流,连接实验数据到论文写作。

核心功能

此技能提供三个核心能力:

  1. 实验数据分析 - 读取和分析各种格式的实验数据
  2. 统计验证 - 执行统计显著性测试和性能比较
  3. 论文内容生成 - 为结果部分生成文本和可视化

何时使用

使用此技能当您需要:

  • 分析实验结果(CSV、JSON、TensorBoard日志)
  • 生成论文的结果部分
  • 比较多个模型的性能
  • 执行统计显著性测试
  • 创建出版物质量的可视化
  • 验证实验结果的可靠性

工作流

标准分析流程

数据加载 → 数据验证 → 统计分析 → 可视化 → 写作 → 质量检查

步骤1:数据加载和验证

支持的数据格式:

  • CSV文件 - 表格数据
  • JSON文件 - 结构化结果
  • TensorBoard日志 - 训练曲线
  • Python pickle - 复杂对象

数据验证检查:

  • 完整性检查 - 缺失值、异常值
  • 一致性检查 - 数据格式、单位
  • 可重现性检查 - 随机种子、版本信息

根据数据格式选择适当的工具进行数据加载和初步验证。

步骤2:统计分析

基本统计:

  • 均值
  • 标准差
  • 标准误差
  • 置信区间

显著性测试:

  • t检验 - 两组比较
  • ANOVA - 多组比较
  • Wilcoxon检验 - 非参数检验
  • Bonferroni校正 - 多重比较校正

根据数据特征选择适当的统计测试。

关键原则:

  • 报告完整的统计信息(均值 ± 标准差/标准误差)
  • 指定测试方法和显著性水平
  • 报告p值和效应大小
  • 考虑多重比较问题

参考 references/statistical-methods.md 获取完整的统计方法指南。

步骤3:模型性能比较

比较维度:

  • 准确性/性能指标
  • 训练时间/推理速度
  • 模型复杂度/参数数量
  • 鲁棒性/泛化能力

比较方法:

  • 基线比较 - 与现有方法比较
  • 消融研究 - 验证组件贡献
  • 跨数据集验证 - 测试泛化

系统比较不同方法的性能,确保公平比较。

步骤4:可视化

出版物质量的可视化要求:

  • 矢量格式(PDF/EPS)
  • 色盲友好调色板
  • 清晰的标签和图例
  • 适当的误差条
  • 黑白打印可读

常见图表类型:

  • 折线图 - 训练曲线、趋势分析
  • 条形图 - 性能比较
  • 箱线图 - 分布显示
  • 热图 - 相关性分析
  • 散点图 - 关系显示

使用适当的可视化工具生成出版物质量的图形。

参考 references/visualization-best-practices.md 获取可视化指南。

步骤5:写作结果部分

结果部分结构:

## 结果

### 主要发现概述
[1-2段落总结核心结果]

### 实验设置
[简要描述实验配置;详情见附录]

### 性能比较
[与基线方法比较,包括表格和图形]

### 消融研究
[验证每个组件的贡献]

### 统计显著性
[报告统计测试结果]

### 定性分析
[案例研究、可视化示例]

写作原则:

  • 清晰陈述每个实验验证的假设
  • 引导读者观察关键现象:“图X显示…”
  • 报告完整的统计信息
  • 诚实地报告限制

参考 references/results-writing-guide.md 获取完整的写作指南。

步骤6:质量检查

检查清单:

  • [ ] 所有值包含误差条/置信区间
  • [ ] 指定统计测试方法
  • [ ] 图形清晰可读(包括黑白打印)
  • [ ] 报告超参数搜索范围
  • [ ] 指定计算资源(GPU类型、时间)
  • [ ] 指定随机种子设置
  • [ ] 结果可重现(代码/数据可用)

常见错误和陷阱

统计错误

错误方法:

  • 仅报告最佳结果(樱桃采摘)
  • 混淆标准差和标准误差
  • 不报告统计显著性
  • 未校正多重比较

正确方法:

  • 报告所有实验结果
  • 清晰指定使用标准差或标准误差
  • 执行适当的统计测试
  • 使用Bonferroni或类似校正方法

可视化错误

错误方法:

  • 使用非色盲友好调色板
  • Y轴不从0开始(夸大差异)
  • 缺少误差条
  • 过于复杂的图形

正确方法:

  • 使用Okabe-Ito或Paul Tol调色板
  • 设置合理的轴范围
  • 包括误差条和置信区间
  • 保持图形干净清晰

写作错误

错误方法:

  • 过度解释结果
  • 不描述实验设置
  • 隐藏负面结果
  • 缺少统计信息

正确方法:

  • 客观描述观察到的现象
  • 提供足够的实验细节
  • 诚实地报告所有结果
  • 报告完整的统计信息

参考 references/common-pitfalls.md 获取完整的错误模式和修复。

与论文写作集成

与ml-paper-writing技能的协作

此技能专注于实验结果分析,并与 ml-paper-writing 技能协同工作:

results-analysis处理:

  • 数据分析和统计测试
  • 可视化生成
  • 结果解释

ml-paper-writing处理:

  • 完整论文结构
  • 引用管理
  • 会议格式要求

工作流集成:

实验完成 → results-analysis分析
    ↓
生成分析报告和可视化
    ↓
ml-paper-writing集成到论文
    ↓
完成结果部分

输出格式

分析后,生成以下内容:

  1. 分析报告 (analysis-report.md)

    • 统计摘要
    • 关键发现
    • 建议图形
  2. 可视化文件 (figures/)

    • PDF格式图形
    • 独立图形标题
  3. 结果草稿 (results-draft.md)

    • 可直接用于论文的文本
    • 包括图形引用

示例和模板

示例文件

参考 examples/ 目录获取完整示例:

  • example-analysis-report.md - 完整分析报告示例
  • example-results-section.md - 论文结果部分示例

工作流概述

完整分析流程包括:

  1. 数据加载 - 从实验输出文件读取结果
  2. 统计分析 - 计算基本统计和执行显著性测试
  3. 可视化 - 创建出版物质量的图形
  4. 报告生成 - 集成分析结果和可视化

参考 references/ 目录中的指南获取详细方法和最佳实践。

参考资源

详细指南

  • references/statistical-methods.md - 完整的统计方法指南
  • references/results-writing-guide.md - 结果部分写作标准
  • references/visualization-best-practices.md - 可视化最佳实践
  • references/common-pitfalls.md - 常见错误和修复

外部资源

最佳实践总结

数据分析

推荐:

  • 多次运行实验(至少3-5次)
  • 报告完整的统计信息
  • 使用适当的统计测试
  • 检查数据完整性

禁止:

  • 樱桃采摘最佳结果
  • 忽略统计显著性
  • 隐藏负面结果
  • 不报告实验设置

可视化

推荐:

  • 使用矢量格式
  • 色盲友好调色板
  • 包括误差条
  • 清晰标签

禁止:

  • 光栅格式(PNG/JPG)
  • 误导性轴比例
  • 过于复杂的图形
  • 缺少图例

写作

推荐:

  • 客观描述结果
  • 提供足够细节
  • 诚实地报告限制
  • 引导读者注意力

禁止:

  • 过度解释
  • 隐藏细节
  • 夸大效果
  • 模糊描述

总结

此技能提供系统的实验结果分析工作流:

  1. 数据加载和验证 - 确保数据质量
  2. 统计分析 - 执行适当的统计测试
  3. 模型比较 - 系统性能比较
  4. 可视化 - 出版物质量的图形
  5. 写作 - 结果部分内容
  6. 质量检查 - 确保可重现性

遵循这些原则产生高质量、可重现的实验结果分析,满足顶级会议标准。