name: tripod-check 描述: 当审计预测模型或临床AI手稿，对照TRIPOD+AI检查表时使用。触发于预测模型、预后评分、诊断模型、机器学习临床工具、风险计算器、AUC/c统计报告或AI辅助临床决策支持。

TRIPOD+AI合规检查器

对照TRIPOD+AI（个体预后或诊断多变量预测模型的透明报告+AI扩展）27项检查表，审计预测模型和临床AI手稿。

工作流程

阅读完整手稿
识别研究阶段：开发(D)、评估(E) 或 两者(D;E)
识别建模方法：回归、机器学习、深度学习、集成
逐项检查；注意适用性列（D、E或D;E）
对每个适用项，分配：已报告 / 部分 / 缺失 / 不适用
引用相关手稿文本作为证据
输出合规摘要 + 可操作的修复建议

TRIPOD+AI检查表（27项）

标题和摘要

#	适用	主题	要求
1	D;E	标题	标识为开发/评估预测模型；指定目标人群、结果和建模方法（回归 vs ML）
2	D;E	摘要	遵循TRIPOD+AI摘要的结构化摘要

引言

#	适用	主题	要求
3a	D;E	医疗保健背景	解释诊断/预后设置；模型理由；引用现有模型
3b	D;E	目标人群	描述目标人群、在护理路径中的位置、预期用户
3c	D;E	健康不平等	描述已知的跨人口/社会经济群体的健康不平等；解决公平性
4	D;E	目标	陈述目标；指定是开发、评估还是两者

方法 — 数据和参与者

#	适用	主题	要求
5a	D;E	数据源	描述数据来源；证明选择；评估代表性
5b	D;E	数据日期	参与者纳入的开始/结束日期；预后模型的随访结束时间
6a	D;E	设置	研究设置（初级/二级护理、一般人群）；中心和数量及位置
6b	D;E	资格	纳入和排除标准
6c	D;E	治疗	接受的治疗；开发/评估期间的处理方式

方法 — 数据准备和结果

#	适用	主题	要求
7	D;E	数据准备	所有预处理、清理、协调步骤；质量检查；跨人口群体的一致性
8a	D;E	结果定义	定义预测结果；预后模型的时间范围；评估方法；跨亚组的一致性
8b	D;E	结果评估者	对于主观结果：评估者资格和人口特征
8c	D;E	结果盲法	结果评估是否对预测信息设盲

方法 — 预测因子

#	适用	主题	要求
9a	D	预测因子选择	描述并证明初始预测因子选择和预选
9b	D;E	预测因子定义	定义所有预测因子；测量方式和时间；盲法程序
9c	D;E	预测因子评估者	对于主观预测因子：评估者资质和人口特征

方法 — 样本大小和缺失数据

#	适用	主题	要求
10	D;E	样本大小	如何确定；证明充分性；包括计算细节
11	D;E	缺失数据	处理缺失数据的方法及理由

方法 — 分析方法

#	适用	主题	要求
12a	D	数据划分	数据如何分配开发/评估；划分策略
12b	D	预测因子处理	预测因子处理方式（函数形式、转换、标准化）
12c	D	模型构建	模型类型及理由。对于ML：架构、超参数调优、训练程序。内部验证方法
12d	D;E	异质性	如何处理跨集群（医院、国家）的变异性
12e	D;E	性能评估	区分（c统计/AUC）、校准方法、临床效用；如适用，模型比较
12f	E	模型更新	重新校准或更新方法
12g	E	预测计算	如何生成预测；公式、代码或API细节

方法 — 类别不平衡和公平性

#	适用	主题	要求
13	D;E	类别不平衡	是否使用不平衡方法、原因、实施、重新校准步骤
14	D;E	公平性评估	评估和解决跨人口群体公平性的方法

方法 — 模型规格和伦理

#	适用	主题	要求
15	D	模型输出	输出类型（概率 vs 分类）；分类阈值及理由
16	D;E	开发 vs 评估差异	设置、资格、结果、预测因子在开发和评估之间的差异
17	D;E	伦理批准	IRB/伦理委员会；同意程序或豁免

开放科学

#	适用	主题	要求
18a	D;E	资金	资金来源及资助者角色
18b	D;E	利益冲突	所有作者披露
18c	D;E	协议	协议可访问位置；或声明未准备
18d	D;E	注册	注册表名称和编号；或声明未注册
18e	D;E	数据共享	数据可用性；访问限制和条款
18f	D;E	代码共享	分析代码可用性；访问条件

患者和公众参与

#	适用	主题	要求
19	D;E	PPI	患者/公众参与设计、实施、报告；或声明无

结果

#	适用	主题	要求
20a	D;E	参与者流程	参与者流程；结果事件计数；随访时间；推荐流程图
20b	D;E	参与者特征	总体和每个设置的人口统计和关键特征；预测因子值、治疗、样本大小、事件、缺失数据；跨人口群体差异
20c	E	数据比较	比较评估和开发数据集之间的预测因子分布
21	D;E	参与者计数	每个分析阶段（开发、调优、评估）的参与者和事件
22	D	完整模型规格	用于复制的完整模型细节：回归系数/截距，或模型代码/对象/API
23a	D;E	性能	性能指标与CI；亚组结果；校准图
23b	D;E	异质性结果	跨集群的性能变化
24	E	模型更新结果	更新后的模型及其性能

讨论

#	适用	主题	要求
25	D;E	解释	整体解释；公平性考虑；与现有模型比较
26	D;E	局限性	非代表性、样本大小、过拟合、缺失数据、测量偏差、可推广性
27a	D	低质量输入	模型在部署时如何处理低质量、缺失或超出范围输入数据
27b	D	用户要求	所需用户交互水平；所需专业知识
27c	D;E	未来研究	下一步：外部验证、实施、可推广性研究

ML/AI特定强调

相比传统回归，这些项对ML/AI模型有扩展要求：

项	ML/AI额外要求
7 (数据准备)	特征工程、数据增强、标准化管道
12c (模型构建)	完整架构规格、超参数搜索空间、训练/验证分割、早停、正则化
13 (类别不平衡)	SMOTE、过采样、欠采样、成本敏感学习
14 (公平性)	跨人口群体的算法公平性指标（TRIPOD+AI新增）
3c (健康不平等)	模型部署的公平性考虑（TRIPOD+AI新增）
18e-f (开放科学)	模型权重、训练代码、推理API共享
22 (模型规格)	模型权重/代码/API，而不仅仅是系数

常见TRIPOD+AI缺失项

经常缺失	修复
项3c (健康不平等)	添加关于预测问题中已知人口差异的段落
项12c (完整ML流程)	记录架构、超参数、训练程序、验证策略
项14 (公平性)	按性别、年龄、种族/民族报告模型性能分层
项22 (模型规格)	通过GitHub分享模型代码/权重，或提供所有系数的公式
项18e-f (数据/代码共享)	在GitHub上发布代码；分享去标识数据或解释限制
项19 (PPI)	声明患者/公众是否参与；如无，明确说明
项10 (样本大小)	使用Riley等标准用于预测模型样本大小

输出格式

TRIPOD+AI合规报告
研究阶段: [开发 / 评估 / 两者]
建模方法: [回归 / ML / 深度学习 / 集成]
手稿: [文件名]

摘要: X/27 已报告 | Y 部分 | Z 缺失 | W 不适用
(基于研究阶段评估项: D-only / E-only / D;E)

ML/AI特定缺失:
  [项 #] [主题] — [ML/AI合规所需]

其他缺失:
  [项 #] [主题] — [所需]

部分项:
  [项 #] [主题] — [已存在] → [缺失]

开放科学:
  代码共享: [可用(URL) / 不可用 / 未声明]
  数据共享: [可用(URL) / 不可用 / 未声明]
  注册: [已注册(ID) / 未注册 / 未声明]

扩展

TRIPOD-LLM (2024, Nature Medicine): 用于生物医学/医疗保健中使用大语言模型的研究的扩展。添加19项，涵盖可解释性、透明度、人类监督和任务特定LLM考虑。
PROBAST (预测模型偏倚风险评估工具): 用于评估偏倚风险的配套工具；与TRIPOD+AI一起用于质量评估。

TRIPOD+AI合规检查技能Skill tripod-check

name: tripod-check 描述: 当审计预测模型或临床AI手稿，对照TRIPOD+AI检查表时使用。触发于预测模型、预后评分、诊断模型、机器学习临床工具、风险计算器、AUC/c统计报告或AI辅助临床决策支持。

TRIPOD+AI合规检查器

工作流程

TRIPOD+AI检查表（27项）

标题和摘要

引言

方法 — 数据和参与者

方法 — 数据准备和结果

方法 — 预测因子

方法 — 样本大小和缺失数据

方法 — 分析方法

方法 — 类别不平衡和公平性

方法 — 模型规格和伦理

开放科学

患者和公众参与

结果

讨论

ML/AI特定强调

常见TRIPOD+AI缺失项

输出格式

扩展

相关技能