治疗数据公共库Skill pytdc

PyTDC(治疗数据公共库)是一个开源科学平台,提供AI就绪的药物发现和开发数据集及基准测试。它支持单实例预测(如ADME、毒性)、多实例预测(如药物-靶点相互作用)和生成任务(如分子生成),并包括数据分割、模型评估和分子优化工具。关键词:药物发现,人工智能,机器学习,数据集,基准测试,ADME,毒性,药物靶点相互作用,分子生成。

机器学习 0 次安装 0 次浏览 更新于 3/16/2026

name: pytdc description: “治疗数据公共库。AI就绪的药物发现数据集(ADME、毒性、DTI)、基准测试、骨架分割、分子预言机,用于治疗性机器学习和药理学预测。”

PyTDC(治疗数据公共库)

概述

PyTDC 是一个开放科学平台,提供用于药物发现和开发的AI就绪数据集和基准测试。访问涵盖整个治疗流程的精选数据集,包括标准化评估指标和有意义的数分割,分为三类:单实例预测(分子/蛋白质性质)、多实例预测(药物-靶点相互作用、DDI)和生成(分子生成、逆合成)。

何时使用此技能

此技能应在以下情况下使用:

  • 使用药物发现或治疗性机器学习数据集时
  • 在标准化制药任务上对机器学习模型进行基准测试时
  • 预测分子性质(ADME、毒性、生物活性)时
  • 预测药物-靶点或药物-药物相互作用时
  • 生成具有所需性质的新分子时
  • 访问具有适当训练/测试分割(骨架、冷分割)的精选数据集时
  • 使用分子预言机进行性质优化时

安装与设置

使用pip安装PyTDC:

pip install PyTDC

升级到最新版本:

pip install PyTDC --upgrade

核心依赖(自动安装):

  • numpy, pandas, tqdm, seaborn, scikit_learn, fuzzywuzzy

其他包会根据特定功能需要自动安装。

快速开始

访问任何TDC数据集的基本模式遵循以下结构:

from tdc.<problem> import <Task>
data = <Task>(name='<Dataset>')
split = data.get_split(method='scaffold', seed=1, frac=[0.7, 0.1, 0.2])
df = data.get_data(format='df')

其中:

  • <problem>single_predmulti_predgeneration 之一
  • <Task>:特定任务类别(如ADME、DTI、MolGen)
  • <Dataset>:该任务内的数据集名称

示例 - 加载ADME数据:

from tdc.single_pred import ADME
data = ADME(name='Caco2_Wang')
split = data.get_split(method='scaffold')
# 返回包含'train'、'valid'、'test' DataFrame的字典

单实例预测任务

单实例预测涉及预测单个生物医学实体(分子、蛋白质等)的性质。

可用任务类别

1. ADME(吸收、分布、代谢、排泄)

预测药物分子的药代动力学性质。

from tdc.single_pred import ADME
data = ADME(name='Caco2_Wang')  # 肠道通透性
# 其他数据集:HIA_Hou, Bioavailability_Ma, Lipophilicity_AstraZeneca等

常见ADME数据集:

  • Caco2 - 肠道通透性
  • HIA - 人体肠道吸收
  • Bioavailability - 口服生物利用度
  • Lipophilicity - 辛醇-水分配系数
  • Solubility - 水溶性
  • BBB - 血脑屏障穿透
  • CYP - 细胞色素P450代谢

2. 毒性(Tox)

预测化合物的毒性和副作用。

from tdc.single_pred import Tox
data = Tox(name='hERG')  # 心脏毒性
# 其他数据集:AMES, DILI, Carcinogens_Lagunin等

常见毒性数据集:

  • hERG - 心脏毒性
  • AMES - 致突变性
  • DILI - 药物诱导的肝损伤
  • Carcinogens - 致癌性
  • ClinTox - 临床试验毒性

3. HTS(高通量筛选)

来自筛选数据的生物活性预测。

from tdc.single_pred import HTS
data = HTS(name='SARSCoV2_Vitro_Touret')

4. QM(量子力学)

分子的量子力学性质。

from tdc.single_pred import QM
data = QM(name='QM7')

5. 其他单预测任务

  • Yields:化学反应产率预测
  • Epitope:生物制剂的表位预测
  • Develop:开发阶段预测
  • CRISPROutcome:基因编辑结果预测

数据格式

单预测数据集通常返回具有以下列的DataFrame:

  • Drug_IDCompound_ID:唯一标识符
  • DrugX:SMILES字符串或分子表示
  • Y:目标标签(连续或二分类)

多实例预测任务

多实例预测涉及预测多个生物医学实体之间相互作用的性质。

可用任务类别

1. DTI(药物-靶点相互作用)

预测药物和蛋白质靶点之间的结合亲和力。

from tdc.multi_pred import DTI
data = DTI(name='BindingDB_Kd')
split = data.get_split()

可用数据集:

  • BindingDB_Kd - 解离常数(52,284对)
  • BindingDB_IC50 - 半最大抑制浓度(991,486对)
  • BindingDB_Ki - 抑制常数(375,032对)
  • DAVIS, KIBA - 激酶结合数据集

数据格式: Drug_ID, Target_ID, Drug (SMILES), Target (序列), Y (结合亲和力)

2. DDI(药物-药物相互作用)

预测药物对之间的相互作用。

from tdc.multi_pred import DDI
data = DDI(name='DrugBank')
split = data.get_split()

多分类任务预测相互作用类型。数据集包含191,808个DDI对和1,706种药物。

3. PPI(蛋白质-蛋白质相互作用)

预测蛋白质-蛋白质相互作用。

from tdc.multi_pred import PPI
data = PPI(name='HuRI')

4. 其他多预测任务

  • GDA:基因-疾病关联
  • DrugRes:药物耐药性预测
  • DrugSyn:药物协同作用预测
  • PeptideMHC:肽-MHC结合
  • AntibodyAff:抗体亲和力预测
  • MTI:miRNA-靶点相互作用
  • Catalyst:催化剂预测
  • TrialOutcome:临床试验结果预测

生成任务

生成任务涉及创建具有所需性质的新生物医学实体。

1. 分子生成(MolGen)

生成具有理想化学性质的多样新分子。

from tdc.generation import MolGen
data = MolGen(name='ChEMBL_V29')
split = data.get_split()

使用预言机优化特定性质:

from tdc import Oracle
oracle = Oracle(name='GSK3B')
score = oracle('CC(C)Cc1ccc(cc1)C(C)C(O)=O')  # 评估SMILES

参见 references/oracles.md 获取所有可用预言机函数。

2. 逆合成(RetroSyn)

预测合成目标分子所需的反应物。

from tdc.generation import RetroSyn
data = RetroSyn(name='USPTO')
split = data.get_split()

数据集包含来自USPTO数据库的1,939,253个反应。

3. 配对分子生成

生成分子对(如前药-药物对)。

from tdc.generation import PairMolGen
data = PairMolGen(name='Prodrug')

有关详细预言机文档和分子生成工作流,请参考 references/oracles.mdscripts/molecular_generation.py

基准测试组

基准测试组提供相关数据集的精选集合,用于系统模型评估。

ADMET基准测试组

from tdc.benchmark_group import admet_group
group = admet_group(path='data/')

# 获取基准测试数据集
benchmark = group.get('Caco2_Wang')
predictions = {}

for seed in [1, 2, 3, 4, 5]:
    train, valid = benchmark['train'], benchmark['valid']
    # 在此处训练模型
    predictions[seed] = model.predict(benchmark['test'])

# 使用所需的5个种子评估
results = group.evaluate(predictions)

ADMET组包括22个数据集,涵盖吸收、分布、代谢、排泄和毒性。

其他基准测试组

可用基准测试组包括集合用于:

  • ADMET性质
  • 药物-靶点相互作用
  • 药物组合预测
  • 以及更多专业治疗任务

有关基准测试评估工作流,请参见 scripts/benchmark_evaluation.py

数据功能

TDC提供全面的数据处理实用工具,分为四类。

1. 数据集分割

使用各种策略检索训练/验证/测试分区:

# 骨架分割(大多数任务的默认)
split = data.get_split(method='scaffold', seed=1, frac=[0.7, 0.1, 0.2])

# 随机分割
split = data.get_split(method='random', seed=42, frac=[0.8, 0.1, 0.1])

# 冷分割(用于DTI/DDI任务)
split = data.get_split(method='cold_drug', seed=1)  # 测试中未见药物
split = data.get_split(method='cold_target', seed=1)  # 测试中未见靶点

可用分割策略:

  • random:随机洗牌
  • scaffold:基于骨架(用于化学多样性)
  • cold_drug, cold_target, cold_drug_target:用于DTI任务
  • temporal:时间数据集的时间分割

2. 模型评估

使用标准化指标进行评估:

from tdc import Evaluator

# 用于二分类
evaluator = Evaluator(name='ROC-AUC')
score = evaluator(y_true, y_pred)

# 用于回归
evaluator = Evaluator(name='RMSE')
score = evaluator(y_true, y_pred)

可用指标: ROC-AUC、PR-AUC、F1、准确性、RMSE、MAE、R2、斯皮尔曼、皮尔逊等。

3. 数据处理

TDC提供11个关键处理实用工具:

from tdc.chem_utils import MolConvert

# 分子格式转换
converter = MolConvert(src='SMILES', dst='PyG')
pyg_graph = converter('CC(C)Cc1ccc(cc1)C(C)C(O)=O')

处理实用工具包括:

  • 分子格式转换(SMILES、SELFIES、PyG、DGL、ECFP等)
  • 分子过滤器(PAINS、药物相似性)
  • 标签二值化和单位转换
  • 数据平衡(过采样/欠采样)
  • 配对数据的负采样
  • 图变换
  • 实体检索(CID到SMILES、UniProt到序列)

有关全面实用工具文档,请参见 references/utilities.md

4. 分子生成预言机

TDC提供17+个预言机函数用于分子优化:

from tdc import Oracle

# 单个预言机
oracle = Oracle(name='DRD2')
score = oracle('CC(C)Cc1ccc(cc1)C(C)C(O)=O')

# 多个预言机
oracle = Oracle(name='JNK3')
scores = oracle(['SMILES1', 'SMILES2', 'SMILES3'])

有关完整预言机文档,请参见 references/oracles.md

高级功能

检索可用数据集

from tdc.utils import retrieve_dataset_names

# 获取所有ADME数据集
adme_datasets = retrieve_dataset_names('ADME')

# 获取所有DTI数据集
dti_datasets = retrieve_dataset_names('DTI')

标签转换

# 获取标签映射
label_map = data.get_label_map(name='DrugBank')

# 转换标签
from tdc.chem_utils import label_transform
transformed = label_transform(y, from_unit='nM', to_unit='p')

数据库查询

from tdc.utils import cid2smiles, uniprot2seq

# 将PubChem CID转换为SMILES
smiles = cid2smiles(2244)

# 将UniProt ID转换为氨基酸序列
sequence = uniprot2seq('P12345')

常见工作流

工作流1:训练单预测模型

参见 scripts/load_and_split_data.py 获取完整示例:

from tdc.single_pred import ADME
from tdc import Evaluator

# 加载数据
data = ADME(name='Caco2_Wang')
split = data.get_split(method='scaffold', seed=42)

train, valid, test = split['train'], split['valid'], split['test']

# 训练模型(用户实现)
# model.fit(train['Drug'], train['Y'])

# 评估
evaluator = Evaluator(name='MAE')
# score = evaluator(test['Y'], predictions)

工作流2:基准测试评估

参见 scripts/benchmark_evaluation.py 获取完整示例,包括多个种子和适当的评估协议。

工作流3:使用预言机的分子生成

参见 scripts/molecular_generation.py 获取使用预言机函数进行目标导向生成的示例。

资源

此技能包含常见TDC工作流的捆绑资源:

scripts/

  • load_and_split_data.py:用于使用各种策略加载和分割TDC数据集的模板
  • benchmark_evaluation.py:用于运行基准测试组评估的模板,包括适当的5种子协议
  • molecular_generation.py:用于使用预言机函数进行分子生成的模板

references/

  • datasets.md:按任务类型组织的所有可用数据集的全面目录
  • oracles.md:所有17+个分子生成预言机的完整文档
  • utilities.md:数据处理、分割和评估实用工具的详细指南

额外资源