name: tripod-check
描述: 当审计预测模型或临床AI手稿,对照TRIPOD+AI检查表时使用。触发于预测模型、预后评分、诊断模型、机器学习临床工具、风险计算器、AUC/c统计报告或AI辅助临床决策支持。
TRIPOD+AI合规检查器
对照TRIPOD+AI(个体预后或诊断多变量预测模型的透明报告+AI扩展)27项检查表,审计预测模型和临床AI手稿。
工作流程
- 阅读完整手稿
- 识别研究阶段:开发(D)、评估(E) 或 两者(D;E)
- 识别建模方法:回归、机器学习、深度学习、集成
- 逐项检查;注意适用性列(D、E或D;E)
- 对每个适用项,分配:已报告 / 部分 / 缺失 / 不适用
- 引用相关手稿文本作为证据
- 输出合规摘要 + 可操作的修复建议
TRIPOD+AI检查表(27项)
标题和摘要
| # |
适用 |
主题 |
要求 |
| 1 |
D;E |
标题 |
标识为开发/评估预测模型;指定目标人群、结果和建模方法(回归 vs ML) |
| 2 |
D;E |
摘要 |
遵循TRIPOD+AI摘要的结构化摘要 |
引言
| # |
适用 |
主题 |
要求 |
| 3a |
D;E |
医疗保健背景 |
解释诊断/预后设置;模型理由;引用现有模型 |
| 3b |
D;E |
目标人群 |
描述目标人群、在护理路径中的位置、预期用户 |
| 3c |
D;E |
健康不平等 |
描述已知的跨人口/社会经济群体的健康不平等;解决公平性 |
| 4 |
D;E |
目标 |
陈述目标;指定是开发、评估还是两者 |
方法 — 数据和参与者
| # |
适用 |
主题 |
要求 |
| 5a |
D;E |
数据源 |
描述数据来源;证明选择;评估代表性 |
| 5b |
D;E |
数据日期 |
参与者纳入的开始/结束日期;预后模型的随访结束时间 |
| 6a |
D;E |
设置 |
研究设置(初级/二级护理、一般人群);中心和数量及位置 |
| 6b |
D;E |
资格 |
纳入和排除标准 |
| 6c |
D;E |
治疗 |
接受的治疗;开发/评估期间的处理方式 |
方法 — 数据准备和结果
| # |
适用 |
主题 |
要求 |
| 7 |
D;E |
数据准备 |
所有预处理、清理、协调步骤;质量检查;跨人口群体的一致性 |
| 8a |
D;E |
结果定义 |
定义预测结果;预后模型的时间范围;评估方法;跨亚组的一致性 |
| 8b |
D;E |
结果评估者 |
对于主观结果:评估者资格和人口特征 |
| 8c |
D;E |
结果盲法 |
结果评估是否对预测信息设盲 |
方法 — 预测因子
| # |
适用 |
主题 |
要求 |
| 9a |
D |
预测因子选择 |
描述并证明初始预测因子选择和预选 |
| 9b |
D;E |
预测因子定义 |
定义所有预测因子;测量方式和时间;盲法程序 |
| 9c |
D;E |
预测因子评估者 |
对于主观预测因子:评估者资质和人口特征 |
方法 — 样本大小和缺失数据
| # |
适用 |
主题 |
要求 |
| 10 |
D;E |
样本大小 |
如何确定;证明充分性;包括计算细节 |
| 11 |
D;E |
缺失数据 |
处理缺失数据的方法及理由 |
方法 — 分析方法
| # |
适用 |
主题 |
要求 |
| 12a |
D |
数据划分 |
数据如何分配开发/评估;划分策略 |
| 12b |
D |
预测因子处理 |
预测因子处理方式(函数形式、转换、标准化) |
| 12c |
D |
模型构建 |
模型类型及理由。对于ML:架构、超参数调优、训练程序。 内部验证方法 |
| 12d |
D;E |
异质性 |
如何处理跨集群(医院、国家)的变异性 |
| 12e |
D;E |
性能评估 |
区分(c统计/AUC)、校准方法、临床效用;如适用,模型比较 |
| 12f |
E |
模型更新 |
重新校准或更新方法 |
| 12g |
E |
预测计算 |
如何生成预测;公式、代码或API细节 |
方法 — 类别不平衡和公平性
| # |
适用 |
主题 |
要求 |
| 13 |
D;E |
类别不平衡 |
是否使用不平衡方法、原因、实施、重新校准步骤 |
| 14 |
D;E |
公平性评估 |
评估和解决跨人口群体公平性的方法 |
方法 — 模型规格和伦理
| # |
适用 |
主题 |
要求 |
| 15 |
D |
模型输出 |
输出类型(概率 vs 分类);分类阈值及理由 |
| 16 |
D;E |
开发 vs 评估差异 |
设置、资格、结果、预测因子在开发和评估之间的差异 |
| 17 |
D;E |
伦理批准 |
IRB/伦理委员会;同意程序或豁免 |
开放科学
| # |
适用 |
主题 |
要求 |
| 18a |
D;E |
资金 |
资金来源及资助者角色 |
| 18b |
D;E |
利益冲突 |
所有作者披露 |
| 18c |
D;E |
协议 |
协议可访问位置;或声明未准备 |
| 18d |
D;E |
注册 |
注册表名称和编号;或声明未注册 |
| 18e |
D;E |
数据共享 |
数据可用性;访问限制和条款 |
| 18f |
D;E |
代码共享 |
分析代码可用性;访问条件 |
患者和公众参与
| # |
适用 |
主题 |
要求 |
| 19 |
D;E |
PPI |
患者/公众参与设计、实施、报告;或声明无 |
结果
| # |
适用 |
主题 |
要求 |
| 20a |
D;E |
参与者流程 |
参与者流程;结果事件计数;随访时间;推荐流程图 |
| 20b |
D;E |
参与者特征 |
总体和每个设置的人口统计和关键特征;预测因子值、治疗、样本大小、事件、缺失数据;跨人口群体差异 |
| 20c |
E |
数据比较 |
比较评估和开发数据集之间的预测因子分布 |
| 21 |
D;E |
参与者计数 |
每个分析阶段(开发、调优、评估)的参与者和事件 |
| 22 |
D |
完整模型规格 |
用于复制的完整模型细节:回归系数/截距,或模型代码/对象/API |
| 23a |
D;E |
性能 |
性能指标与CI;亚组结果;校准图 |
| 23b |
D;E |
异质性结果 |
跨集群的性能变化 |
| 24 |
E |
模型更新结果 |
更新后的模型及其性能 |
讨论
| # |
适用 |
主题 |
要求 |
| 25 |
D;E |
解释 |
整体解释;公平性考虑;与现有模型比较 |
| 26 |
D;E |
局限性 |
非代表性、样本大小、过拟合、缺失数据、测量偏差、可推广性 |
| 27a |
D |
低质量输入 |
模型在部署时如何处理低质量、缺失或超出范围输入数据 |
| 27b |
D |
用户要求 |
所需用户交互水平;所需专业知识 |
| 27c |
D;E |
未来研究 |
下一步:外部验证、实施、可推广性研究 |
ML/AI特定强调
相比传统回归,这些项对ML/AI模型有扩展要求:
| 项 |
ML/AI额外要求 |
| 7 (数据准备) |
特征工程、数据增强、标准化管道 |
| 12c (模型构建) |
完整架构规格、超参数搜索空间、训练/验证分割、早停、正则化 |
| 13 (类别不平衡) |
SMOTE、过采样、欠采样、成本敏感学习 |
| 14 (公平性) |
跨人口群体的算法公平性指标(TRIPOD+AI新增) |
| 3c (健康不平等) |
模型部署的公平性考虑(TRIPOD+AI新增) |
| 18e-f (开放科学) |
模型权重、训练代码、推理API共享 |
| 22 (模型规格) |
模型权重/代码/API,而不仅仅是系数 |
常见TRIPOD+AI缺失项
| 经常缺失 |
修复 |
| 项3c (健康不平等) |
添加关于预测问题中已知人口差异的段落 |
| 项12c (完整ML流程) |
记录架构、超参数、训练程序、验证策略 |
| 项14 (公平性) |
按性别、年龄、种族/民族报告模型性能分层 |
| 项22 (模型规格) |
通过GitHub分享模型代码/权重,或提供所有系数的公式 |
| 项18e-f (数据/代码共享) |
在GitHub上发布代码;分享去标识数据或解释限制 |
| 项19 (PPI) |
声明患者/公众是否参与;如无,明确说明 |
| 项10 (样本大小) |
使用Riley等标准用于预测模型样本大小 |
输出格式
TRIPOD+AI合规报告
研究阶段: [开发 / 评估 / 两者]
建模方法: [回归 / ML / 深度学习 / 集成]
手稿: [文件名]
摘要: X/27 已报告 | Y 部分 | Z 缺失 | W 不适用
(基于研究阶段评估项: D-only / E-only / D;E)
ML/AI特定缺失:
[项 #] [主题] — [ML/AI合规所需]
其他缺失:
[项 #] [主题] — [所需]
部分项:
[项 #] [主题] — [已存在] → [缺失]
开放科学:
代码共享: [可用(URL) / 不可用 / 未声明]
数据共享: [可用(URL) / 不可用 / 未声明]
注册: [已注册(ID) / 未注册 / 未声明]
扩展
- TRIPOD-LLM (2024, Nature Medicine): 用于生物医学/医疗保健中使用大语言模型的研究的扩展。添加19项,涵盖可解释性、透明度、人类监督和任务特定LLM考虑。
- PROBAST (预测模型偏倚风险评估工具): 用于评估偏倚风险的配套工具;与TRIPOD+AI一起用于质量评估。
相关技能
/manuscript — 整体手稿撰写和反模式扫描
/strobe-check — 如果预测模型从观察队列开发,也运行STROBE