DeepChem(深度化学机器学习工具包)Skill deepchem

DeepChem 是一个用于化学、材料科学和生物学的 Python 机器学习库,专注于分子性质预测(如溶解度、毒性)、药物发现、材料设计和生物分子分析。它提供分子特征化、图神经网络(GNNs)、预训练模型和 MoleculeNet 基准数据集,支持迁移学习和深度学习应用。关键词:机器学习、化学、药物发现、分子性质预测、图神经网络、Python 库。

机器学习 0 次安装 0 次浏览 更新于 3/16/2026

名称: deepchem 描述: “分子机器学习工具包。性质预测(ADMET、毒性)、GNNs(GCN、MPNN)、MoleculeNet基准、预训练模型、特征化,用于药物发现机器学习。”

DeepChem

概述

DeepChem 是一个全面的 Python 库,用于将机器学习应用于化学、材料科学和生物学。通过专门的神经网络、分子特征化方法和预训练模型,实现分子性质预测、药物发现、材料设计和生物分子分析。

何时使用此技能

此技能应在以下情况使用:

  • 加载和处理分子数据(SMILES 字符串、SDF 文件、蛋白质序列)
  • 预测分子性质(溶解度、毒性、结合亲和力、ADMET 性质)
  • 在化学/生物数据集上训练模型
  • 使用 MoleculeNet 基准数据集(Tox21、BBBP、Delaney 等)
  • 将分子转换为机器学习就绪特征(指纹、图表示、描述符)
  • 为分子实现图神经网络(GCN、GAT、MPNN、AttentiveFP)
  • 使用预训练模型应用迁移学习(ChemBERTa、GROVER、MolFormer)
  • 预测晶体/材料性质(带隙、形成能)
  • 分析蛋白质或 DNA 序列

核心功能

1. 分子数据加载和处理

DeepChem 提供各种化学数据格式的专用加载器:

import deepchem as dc

# 加载带 SMILES 的 CSV
featurizer = dc.feat.CircularFingerprint(radius=2, size=2048)
loader = dc.data.CSVLoader(
    tasks=['solubility', 'toxicity'],
    feature_field='smiles',
    featurizer=featurizer
)
dataset = loader.create_dataset('molecules.csv')

# 加载 SDF 文件
loader = dc.data.SDFLoader(tasks=['activity'], featurizer=featurizer)
dataset = loader.create_dataset('compounds.sdf')

# 加载蛋白质序列
loader = dc.data.FASTALoader()
dataset = loader.create_dataset('proteins.fasta')

关键加载器

  • CSVLoader:带有分子标识符的表格数据
  • SDFLoader:分子结构文件
  • FASTALoader:蛋白质/DNA 序列
  • ImageLoader:分子图像
  • JsonLoader:JSON 格式数据集

2. 分子特征化

将分子转换为机器学习模型的数值表示。

特征化器选择决策树

模型是否为图神经网络?
├─ 是 → 使用图特征化器
│   ├─ 标准 GNN → MolGraphConvFeaturizer
│   ├─ 消息传递 → DMPNNFeaturizer
│   └─ 预训练 → GroverFeaturizer
│
└─ 否 → 模型类型是什么?
    ├─ 传统机器学习(RF、XGBoost、SVM)
    │   ├─ 快速基线 → CircularFingerprint (ECFP)
    │   ├─ 可解释 → RDKitDescriptors
    │   └─ 最大覆盖 → MordredDescriptors
    │
    ├─ 深度学习(非图)
    │   ├─ 密集网络 → CircularFingerprint
    │   └─ CNN → SmilesToImage
    │
    ├─ 序列模型(LSTM、Transformer)
    │   └─ SmilesToSeq
    │
    └─ 3D 结构分析
        └─ CoulombMatrix

示例特征化

# 指纹(用于传统机器学习)
fp = dc.feat.CircularFingerprint(radius=2, size=2048)

# 描述符(用于可解释模型)
desc = dc.feat.RDKitDescriptors()

# 图特征(用于 GNNs)
graph_feat = dc.feat.MolGraphConvFeaturizer()

# 应用特征化
features = fp.featurize(['CCO', 'c1ccccc1'])

选择指南

  • 小数据集(<1K):CircularFingerprint 或 RDKitDescriptors
  • 中等数据集(1K-100K):CircularFingerprint 或图特征化器
  • 大数据集(>100K):图特征化器(MolGraphConvFeaturizer、DMPNNFeaturizer)
  • 迁移学习:预训练模型特征化器(GroverFeaturizer)

参见 references/api_reference.md 获取完整特征化器文档。

3. 数据拆分

关键:对于药物发现任务,使用 ScaffoldSplitter 以防止相似分子结构出现在训练和测试集中导致数据泄漏。

# 骨架拆分(推荐用于分子)
splitter = dc.splits.ScaffoldSplitter()
train, valid, test = splitter.train_valid_test_split(
    dataset,
    frac_train=0.8,
    frac_valid=0.1,
    frac_test=0.1
)

# 随机拆分(用于非分子数据)
splitter = dc.splits.RandomSplitter()
train, test = splitter.train_test_split(dataset)

# 分层拆分(用于不平衡分类)
splitter = dc.splits.RandomStratifiedSplitter()
train, test = splitter.train_test_split(dataset)

可用拆分器

  • ScaffoldSplitter:按分子骨架拆分(防止泄漏)
  • ButinaSplitter:基于聚类的分子拆分
  • MaxMinSplitter:最大化集间多样性
  • RandomSplitter:随机拆分
  • RandomStratifiedSplitter:保持类别分布

4. 模型选择和训练

快速模型选择指南

数据集大小 任务 推荐模型 特征化器
< 1K 样本 任意 SklearnModel(随机森林) CircularFingerprint
1K-100K 分类/回归 GBDTModel 或 MultitaskRegressor CircularFingerprint
> 100K 分子性质 GCNModel、AttentiveFPModel、DMPNNModel MolGraphConvFeaturizer
任意(小数据集优先) 迁移学习 ChemBERTa、GROVER、MolFormer 模型特定
晶体结构 材料性质 CGCNNModel、MEGNetModel 结构基
蛋白质序列 蛋白质性质 ProtBERT 序列基

示例:传统机器学习

from sklearn.ensemble import RandomForestRegressor

# 包装 scikit-learn 模型
sklearn_model = RandomForestRegressor(n_estimators=100)
model = dc.models.SklearnModel(model=sklearn_model)
model.fit(train)

示例:深度学习

# 多任务回归器(用于指纹)
model = dc.models.MultitaskRegressor(
    n_tasks=2,
    n_features=2048,
    layer_sizes=[1000, 500],
    dropouts=0.25,
    learning_rate=0.001
)
model.fit(train, nb_epoch=50)

示例:图神经网络

# 图卷积网络
model = dc.models.GCNModel(
    n_tasks=1,
    mode='regression',
    batch_size=128,
    learning_rate=0.001
)
model.fit(train, nb_epoch=50)

# 图注意力网络
model = dc.models.GATModel(n_tasks=1, mode='classification')
model.fit(train, nb_epoch=50)

# 注意力指纹
model = dc.models.AttentiveFPModel(n_tasks=1, mode='regression')
model.fit(train, nb_epoch=50)

5. MoleculeNet 基准

快速访问 30+ 个精选基准数据集,带有标准化的训练/验证/测试拆分:

# 加载基准数据集
tasks, datasets, transformers = dc.molnet.load_tox21(
    featurizer='GraphConv',  # 或 'ECFP'、'Weave'、'Raw'
    splitter='scaffold',     # 或 'random'、'stratified'
    reload=False
)
train, valid, test = datasets

# 训练和评估
model = dc.models.GCNModel(n_tasks=len(tasks), mode='classification')
model.fit(train, nb_epoch=50)

metric = dc.metrics.Metric(dc.metrics.roc_auc_score)
test_score = model.evaluate(test, [metric])

常见数据集

  • 分类load_tox21()load_bbbp()load_hiv()load_clintox()
  • 回归load_delaney()load_freesolv()load_lipo()
  • 量子性质load_qm7()load_qm8()load_qm9()
  • 材料load_perovskite()load_bandgap()load_mp_formation_energy()

参见 references/api_reference.md 获取完整数据集列表。

6. 迁移学习

利用预训练模型提高性能,尤其在小数据集上:

# ChemBERTa(在 7700 万分子上预训练的 BERT)
model = dc.models.HuggingFaceModel(
    model='seyonec/ChemBERTa-zinc-base-v1',
    task='classification',
    n_tasks=1,
    learning_rate=2e-5  # 微调时使用较低学习率
)
model.fit(train, nb_epoch=10)

# GROVER(在 1000 万分子上预训练的图变换器)
model = dc.models.GroverModel(
    task='regression',
    n_tasks=1
)
model.fit(train, nb_epoch=20)

何时使用迁移学习

  • 小数据集(< 1000 样本)
  • 新颖分子骨架
  • 有限计算资源
  • 需要快速原型设计

使用 scripts/transfer_learning.py 脚本进行指导性迁移学习工作流。

7. 模型评估

# 定义指标
classification_metrics = [
    dc.metrics.Metric(dc.metrics.roc_auc_score, name='ROC-AUC'),
    dc.metrics.Metric(dc.metrics.accuracy_score, name='准确率'),
    dc.metrics.Metric(dc.metrics.f1_score, name='F1')
]

regression_metrics = [
    dc.metrics.Metric(dc.metrics.r2_score, name='R²'),
    dc.metrics.Metric(dc.metrics.mean_absolute_error, name='MAE'),
    dc.metrics.Metric(dc.metrics.root_mean_squared_error, name='RMSE')
]

# 评估
train_scores = model.evaluate(train, classification_metrics)
test_scores = model.evaluate(test, classification_metrics)

8. 进行预测

# 在测试集上预测
predictions = model.predict(test)

# 在新分子上预测
new_smiles = ['CCO', 'c1ccccc1', 'CC(C)O']
new_features = featurizer.featurize(new_smiles)
new_dataset = dc.data.NumpyDataset(X=new_features)

# 应用与训练相同的变换
for transformer in transformers:
    new_dataset = transformer.transform(new_dataset)

predictions = model.predict(new_dataset)

典型工作流

工作流 A:快速基准评估

用于在标准基准上评估模型:

import deepchem as dc

# 1. 加载基准
tasks, datasets, _ = dc.molnet.load_bbbp(
    featurizer='GraphConv',
    splitter='scaffold'
)
train, valid, test = datasets

# 2. 训练模型
model = dc.models.GCNModel(n_tasks=len(tasks), mode='classification')
model.fit(train, nb_epoch=50)

# 3. 评估
metric = dc.metrics.Metric(dc.metrics.roc_auc_score)
test_score = model.evaluate(test, [metric])
print(f"测试 ROC-AUC: {test_score}")

工作流 B:自定义数据预测

用于在自定义分子数据集上训练:

import deepchem as dc

# 1. 加载和特征化数据
featurizer = dc.feat.CircularFingerprint(radius=2, size=2048)
loader = dc.data.CSVLoader(
    tasks=['activity'],
    feature_field='smiles',
    featurizer=featurizer
)
dataset = loader.create_dataset('my_molecules.csv')

# 2. 拆分数据(对分子使用 ScaffoldSplitter!)
splitter = dc.splits.ScaffoldSplitter()
train, valid, test = splitter.train_valid_test_split(dataset)

# 3. 归一化(可选但推荐)
transformers = [dc.trans.NormalizationTransformer(
    transform_y=True, dataset=train
)]
for transformer in transformers:
    train = transformer.transform(train)
    valid = transformer.transform(valid)
    test = transformer.transform(test)

# 4. 训练模型
model = dc.models.MultitaskRegressor(
    n_tasks=1,
    n_features=2048,
    layer_sizes=[1000, 500],
    dropouts=0.25
)
model.fit(train, nb_epoch=50)

# 5. 评估
metric = dc.metrics.Metric(dc.metrics.r2_score)
test_score = model.evaluate(test, [metric])

工作流 C:小数据集上的迁移学习

用于利用预训练模型:

import deepchem as dc

# 1. 加载数据(预训练模型通常需要原始 SMILES)
loader = dc.data.CSVLoader(
    tasks=['activity'],
    feature_field='smiles',
    featurizer=dc.feat.DummyFeaturizer()  # 模型处理特征化
)
dataset = loader.create_dataset('small_dataset.csv')

# 2. 拆分数据
splitter = dc.splits.ScaffoldSplitter()
train, test = splitter.train_test_split(dataset)

# 3. 加载预训练模型
model = dc.models.HuggingFaceModel(
    model='seyonec/ChemBERTa-zinc-base-v1',
    task='classification',
    n_tasks=1,
    learning_rate=2e-5
)

# 4. 微调
model.fit(train, nb_epoch=10)

# 5. 评估
predictions = model.predict(test)

参见 references/workflows.md 获取 8 个详细工作流示例,涵盖分子生成、材料科学、蛋白质分析等。

示例脚本

此技能包含 scripts/ 目录中的三个生产就绪脚本:

1. predict_solubility.py

训练和评估溶解度预测模型。适用于 Delaney 基准或自定义 CSV 数据。

# 使用 Delaney 基准
python scripts/predict_solubility.py

# 使用自定义数据
python scripts/predict_solubility.py \
    --data my_data.csv \
    --smiles-col smiles \
    --target-col solubility \
    --predict "CCO" "c1ccccc1"

2. graph_neural_network.py

在分子数据上训练各种图神经网络架构。

# 在 Tox21 上训练 GCN
python scripts/graph_neural_network.py --model gcn --dataset tox21

# 在自定义数据上训练 AttentiveFP
python scripts/graph_neural_network.py \
    --model attentivefp \
    --data molecules.csv \
    --task-type regression \
    --targets activity \
    --epochs 100

3. transfer_learning.py

在分子性质预测任务上微调预训练模型(ChemBERTa、GROVER)。

# 在 BBBP 上微调 ChemBERTa
python scripts/transfer_learning.py --model chemberta --dataset bbbp

# 在自定义数据上微调 GROVER
python scripts/transfer_learning.py \
    --model grover \
    --data small_dataset.csv \
    --target activity \
    --task-type classification \
    --epochs 20

常见模式和最佳实践

模式 1:对分子始终使用骨架拆分

# 好:防止数据泄漏
splitter = dc.splits.ScaffoldSplitter()
train, test = splitter.train_test_split(dataset)

# 坏:相似分子出现在训练和测试中
splitter = dc.splits.RandomSplitter()
train, test = splitter.train_test_split(dataset)

模式 2:归一化特征和目标

transformers = [
    dc.trans.NormalizationTransformer(
        transform_y=True,  # 同时归一化目标值
        dataset=train
    )
]
for transformer in transformers:
    train = transformer.transform(train)
    test = transformer.transform(test)

模式 3:从简单开始,然后扩展

  1. 从随机森林 + CircularFingerprint 开始(快速基线)
  2. 如果随机森林有效,尝试 XGBoost/LightGBM
  3. 如果样本数 >5K,转向深度学习(MultitaskRegressor)
  4. 如果样本数 >10K,尝试 GNNs
  5. 对于小数据集或新颖骨架,使用迁移学习

模式 4:处理不平衡数据

# 选项 1:平衡变换器
transformer = dc.trans.BalancingTransformer(dataset=train)
train = transformer.transform(train)

# 选项 2:使用平衡指标
metric = dc.metrics.Metric(dc.metrics.balanced_accuracy_score)

模式 5:避免内存问题

# 对大数据集使用 DiskDataset
dataset = dc.data.DiskDataset.from_numpy(X, y, w, ids)

# 使用较小批次大小
model = dc.models.GCNModel(batch_size=32)  # 而不是 128

常见陷阱

问题 1:药物发现中的数据泄漏

问题:使用随机拆分允许相似分子出现在训练/测试集中。 解决方案:对分子数据集始终使用 ScaffoldSplitter

问题 2:GNN 性能不如指纹

问题:图神经网络性能比简单指纹差。 解决方案

  • 确保数据集足够大(通常 >10K 样本)
  • 增加训练轮数(50-100)
  • 尝试不同架构(AttentiveFP、DMPNN 代替 GCN)
  • 使用预训练模型(GROVER)

问题 3:小数据集上的过拟合

问题:模型记忆训练数据。 解决方案

  • 使用更强正则化(增加 dropout 到 0.5)
  • 使用更简单模型(随机森林代替深度学习)
  • 应用迁移学习(ChemBERTa、GROVER)
  • 收集更多数据

问题 4:导入错误

问题:模块未找到错误。 解决方案:确保安装 DeepChem 及所需依赖:

pip install deepchem
# 对于 PyTorch 模型
pip install deepchem[torch]
# 对于所有功能
pip install deepchem[all]

参考文档

此技能包含全面参考文档:

references/api_reference.md

完整 API 文档包括:

  • 所有数据加载器及其用例
  • 数据集类别及何时使用
  • 完整特征化器目录与选择指南
  • 按类别组织的模型目录(50+ 模型)
  • MoleculeNet 数据集描述
  • 指标和评估函数
  • 常见代码模式

何时参考:当需要特定 API 细节、参数名称或想探索可用选项时搜索此文件。

references/workflows.md

八个详细端到端工作流:

  1. 从 SMILES 预测分子性质
  2. 使用 MoleculeNet 基准
  3. 超参数优化
  4. 使用预训练模型进行迁移学习
  5. 使用 GANs 进行分子生成
  6. 材料性质预测
  7. 蛋白质序列分析
  8. 自定义模型集成

何时参考:使用这些工作流作为实现完整解决方案的模板。

安装说明

基本安装:

pip install deepchem

对于 PyTorch 模型(GCN、GAT 等):

pip install deepchem[torch]

对于所有功能:

pip install deepchem[all]

如果出现导入错误,用户可能需要特定依赖。查看 DeepChem 文档获取详细安装说明。

额外资源