TRIPOD+AI合规检查技能Skill tripod-check

这个技能用于审计预测模型和临床AI手稿,对照TRIPOD+AI检查表进行评估,确保模型的透明报告、合规性和公平性。关键词:TRIPOD+AI, 预测模型, 临床AI, 审计, 合规检查, 机器学习, 深度学习, 透明报告, 医疗保健, 数据科学。

预测建模 0 次安装 0 次浏览 更新于 3/12/2026

name: tripod-check 描述: 当审计预测模型或临床AI手稿,对照TRIPOD+AI检查表时使用。触发于预测模型、预后评分、诊断模型、机器学习临床工具、风险计算器、AUC/c统计报告或AI辅助临床决策支持。

TRIPOD+AI合规检查器

对照TRIPOD+AI(个体预后或诊断多变量预测模型的透明报告+AI扩展)27项检查表,审计预测模型和临床AI手稿。

工作流程

  1. 阅读完整手稿
  2. 识别研究阶段:开发(D)评估(E)两者(D;E)
  3. 识别建模方法:回归、机器学习、深度学习、集成
  4. 逐项检查;注意适用性列(D、E或D;E)
  5. 对每个适用项,分配:已报告 / 部分 / 缺失 / 不适用
  6. 引用相关手稿文本作为证据
  7. 输出合规摘要 + 可操作的修复建议

TRIPOD+AI检查表(27项)

标题和摘要

# 适用 主题 要求
1 D;E 标题 标识为开发/评估预测模型;指定目标人群、结果和建模方法(回归 vs ML)
2 D;E 摘要 遵循TRIPOD+AI摘要的结构化摘要

引言

# 适用 主题 要求
3a D;E 医疗保健背景 解释诊断/预后设置;模型理由;引用现有模型
3b D;E 目标人群 描述目标人群、在护理路径中的位置、预期用户
3c D;E 健康不平等 描述已知的跨人口/社会经济群体的健康不平等;解决公平性
4 D;E 目标 陈述目标;指定是开发、评估还是两者

方法 — 数据和参与者

# 适用 主题 要求
5a D;E 数据源 描述数据来源;证明选择;评估代表性
5b D;E 数据日期 参与者纳入的开始/结束日期;预后模型的随访结束时间
6a D;E 设置 研究设置(初级/二级护理、一般人群);中心和数量及位置
6b D;E 资格 纳入和排除标准
6c D;E 治疗 接受的治疗;开发/评估期间的处理方式

方法 — 数据准备和结果

# 适用 主题 要求
7 D;E 数据准备 所有预处理、清理、协调步骤;质量检查;跨人口群体的一致性
8a D;E 结果定义 定义预测结果;预后模型的时间范围;评估方法;跨亚组的一致性
8b D;E 结果评估者 对于主观结果:评估者资格和人口特征
8c D;E 结果盲法 结果评估是否对预测信息设盲

方法 — 预测因子

# 适用 主题 要求
9a D 预测因子选择 描述并证明初始预测因子选择和预选
9b D;E 预测因子定义 定义所有预测因子;测量方式和时间;盲法程序
9c D;E 预测因子评估者 对于主观预测因子:评估者资质和人口特征

方法 — 样本大小和缺失数据

# 适用 主题 要求
10 D;E 样本大小 如何确定;证明充分性;包括计算细节
11 D;E 缺失数据 处理缺失数据的方法及理由

方法 — 分析方法

# 适用 主题 要求
12a D 数据划分 数据如何分配开发/评估;划分策略
12b D 预测因子处理 预测因子处理方式(函数形式、转换、标准化)
12c D 模型构建 模型类型及理由。对于ML:架构、超参数调优、训练程序。 内部验证方法
12d D;E 异质性 如何处理跨集群(医院、国家)的变异性
12e D;E 性能评估 区分(c统计/AUC)、校准方法、临床效用;如适用,模型比较
12f E 模型更新 重新校准或更新方法
12g E 预测计算 如何生成预测;公式、代码或API细节

方法 — 类别不平衡和公平性

# 适用 主题 要求
13 D;E 类别不平衡 是否使用不平衡方法、原因、实施、重新校准步骤
14 D;E 公平性评估 评估和解决跨人口群体公平性的方法

方法 — 模型规格和伦理

# 适用 主题 要求
15 D 模型输出 输出类型(概率 vs 分类);分类阈值及理由
16 D;E 开发 vs 评估差异 设置、资格、结果、预测因子在开发和评估之间的差异
17 D;E 伦理批准 IRB/伦理委员会;同意程序或豁免

开放科学

# 适用 主题 要求
18a D;E 资金 资金来源及资助者角色
18b D;E 利益冲突 所有作者披露
18c D;E 协议 协议可访问位置;或声明未准备
18d D;E 注册 注册表名称和编号;或声明未注册
18e D;E 数据共享 数据可用性;访问限制和条款
18f D;E 代码共享 分析代码可用性;访问条件

患者和公众参与

# 适用 主题 要求
19 D;E PPI 患者/公众参与设计、实施、报告;或声明无

结果

# 适用 主题 要求
20a D;E 参与者流程 参与者流程;结果事件计数;随访时间;推荐流程图
20b D;E 参与者特征 总体和每个设置的人口统计和关键特征;预测因子值、治疗、样本大小、事件、缺失数据;跨人口群体差异
20c E 数据比较 比较评估和开发数据集之间的预测因子分布
21 D;E 参与者计数 每个分析阶段(开发、调优、评估)的参与者和事件
22 D 完整模型规格 用于复制的完整模型细节:回归系数/截距,或模型代码/对象/API
23a D;E 性能 性能指标与CI;亚组结果;校准图
23b D;E 异质性结果 跨集群的性能变化
24 E 模型更新结果 更新后的模型及其性能

讨论

# 适用 主题 要求
25 D;E 解释 整体解释;公平性考虑;与现有模型比较
26 D;E 局限性 非代表性、样本大小、过拟合、缺失数据、测量偏差、可推广性
27a D 低质量输入 模型在部署时如何处理低质量、缺失或超出范围输入数据
27b D 用户要求 所需用户交互水平;所需专业知识
27c D;E 未来研究 下一步:外部验证、实施、可推广性研究

ML/AI特定强调

相比传统回归,这些项对ML/AI模型有扩展要求:

ML/AI额外要求
7 (数据准备) 特征工程、数据增强、标准化管道
12c (模型构建) 完整架构规格、超参数搜索空间、训练/验证分割、早停、正则化
13 (类别不平衡) SMOTE、过采样、欠采样、成本敏感学习
14 (公平性) 跨人口群体的算法公平性指标(TRIPOD+AI新增)
3c (健康不平等) 模型部署的公平性考虑(TRIPOD+AI新增)
18e-f (开放科学) 模型权重、训练代码、推理API共享
22 (模型规格) 模型权重/代码/API,而不仅仅是系数

常见TRIPOD+AI缺失项

经常缺失 修复
项3c (健康不平等) 添加关于预测问题中已知人口差异的段落
项12c (完整ML流程) 记录架构、超参数、训练程序、验证策略
项14 (公平性) 按性别、年龄、种族/民族报告模型性能分层
项22 (模型规格) 通过GitHub分享模型代码/权重,或提供所有系数的公式
项18e-f (数据/代码共享) 在GitHub上发布代码;分享去标识数据或解释限制
项19 (PPI) 声明患者/公众是否参与;如无,明确说明
项10 (样本大小) 使用Riley等标准用于预测模型样本大小

输出格式

TRIPOD+AI合规报告
研究阶段: [开发 / 评估 / 两者]
建模方法: [回归 / ML / 深度学习 / 集成]
手稿: [文件名]

摘要: X/27 已报告 | Y 部分 | Z 缺失 | W 不适用
(基于研究阶段评估项: D-only / E-only / D;E)

ML/AI特定缺失:
  [项 #] [主题] — [ML/AI合规所需]

其他缺失:
  [项 #] [主题] — [所需]

部分项:
  [项 #] [主题] — [已存在] → [缺失]

开放科学:
  代码共享: [可用(URL) / 不可用 / 未声明]
  数据共享: [可用(URL) / 不可用 / 未声明]
  注册: [已注册(ID) / 未注册 / 未声明]

扩展

  • TRIPOD-LLM (2024, Nature Medicine): 用于生物医学/医疗保健中使用大语言模型的研究的扩展。添加19项,涵盖可解释性、透明度、人类监督和任务特定LLM考虑。
  • PROBAST (预测模型偏倚风险评估工具): 用于评估偏倚风险的配套工具;与TRIPOD+AI一起用于质量评估。

相关技能

  • /manuscript — 整体手稿撰写和反模式扫描
  • /strobe-check — 如果预测模型从观察队列开发,也运行STROBE