RDKit化学信息学工具包Skill rdkit

RDKit是一个用于化学信息学的Python库,提供分子分析、药物发现和计算化学功能。它支持SMILES/SDF解析、分子描述符计算(如分子量、LogP)、指纹生成、子结构搜索、化学反应处理、2D/3D坐标生成和分子可视化。适用于药物研发、量化金融中的化学数据分析和科研学术研究。关键词:化学信息学、分子分析、药物发现、Python、RDKit、SMILES、指纹、相似性计算、数据分析。

数据分析 0 次安装 0 次浏览 更新于 3/16/2026

name: rdkit description: “化学信息学工具包,用于精细分子控制。SMILES/SDF解析、描述符(分子量、LogP、TPSA)、指纹、子结构搜索、2D/3D生成、相似性、反应。对于标准工作流和更简单接口,使用datamol(RDKit的包装器)。使用rdkit进行高级控制、自定义净化、专用算法。”

RDKit 化学信息学工具包

概述

RDKit 是一个全面的化学信息学库,提供 Python API 用于分子分析和操作。此技能提供读取/写入分子结构、计算描述符、指纹生成、子结构搜索、化学反应、2D/3D 坐标生成和分子可视化的指导。用于药物发现、计算化学和化学信息学研究任务。

核心功能

1. 分子输入/输出和创建

读取分子:

从各种格式读取分子结构:

from rdkit import Chem

# 从 SMILES 字符串
mol = Chem.MolFromSmiles('Cc1ccccc1')  # 返回 Mol 对象或 None

# 从 MOL 文件
mol = Chem.MolFromMolFile('path/to/file.mol')

# 从 MOL 块(字符串数据)
mol = Chem.MolFromMolBlock(mol_block_string)

# 从 InChI
mol = Chem.MolFromInchi('InChI=1S/C6H6/c1-2-4-6-5-3-1/h1-6H')

写入分子:

将分子转换为文本表示:

# 转换为规范 SMILES
smiles = Chem.MolToSmiles(mol)

# 转换为 MOL 块
mol_block = Chem.MolToMolBlock(mol)

# 转换为 InChI
inchi = Chem.MolToInchi(mol)

批量处理:

对于处理多个分子,使用 Supplier/Writer 对象:

# 读取 SDF 文件
suppl = Chem.SDMolSupplier('molecules.sdf')
for mol in suppl:
    if mol is not None:  # 检查解析错误
        # 处理分子
        pass

# 读取 SMILES 文件
suppl = Chem.SmilesMolSupplier('molecules.smi', titleLine=False)

# 对于大文件或压缩数据
with gzip.open('molecules.sdf.gz') as f:
    suppl = Chem.ForwardSDMolSupplier(f)
    for mol in suppl:
        # 处理分子
        pass

# 用于大数据集的多线程处理
suppl = Chem.MultithreadedSDMolSupplier('molecules.sdf')

# 将分子写入 SDF
writer = Chem.SDWriter('output.sdf')
for mol in molecules:
    writer.write(mol)
writer.close()

重要注意:

  • 所有 MolFrom* 函数在失败时返回 None 并带有错误消息
  • 在处理分子前始终检查 None
  • 导入时自动净化分子(验证价键、感知芳香性)

2. 分子净化和验证

RDKit 在解析期间自动净化分子,执行13个步骤,包括价键检查、芳香性感知和手性分配。

净化控制:

# 禁用自动净化
mol = Chem.MolFromSmiles('C1=CC=CC=C1', sanitize=False)

# 手动净化
Chem.SanitizeMol(mol)

# 在净化前检测问题
problems = Chem.DetectChemistryProblems(mol)
for problem in problems:
    print(problem.GetType(), problem.Message())

# 部分净化(跳过特定步骤)
from rdkit.Chem import rdMolStandardize
Chem.SanitizeMol(mol, sanitizeOps=Chem.SANITIZE_ALL ^ Chem.SANITIZE_PROPERTIES)

常见净化问题:

  • 原子显式价超过允许最大值将引发异常
  • 无效芳香环将导致凯库勒化错误
  • 未明确指定时,自由基电子可能无法正确分配

3. 分子分析和性质

访问分子结构:

# 迭代原子和键
for atom in mol.GetAtoms():
    print(atom.GetSymbol(), atom.GetIdx(), atom.GetDegree())

for bond in mol.GetBonds():
    print(bond.GetBeginAtomIdx(), bond.GetEndAtomIdx(), bond.GetBondType())

# 环信息
ring_info = mol.GetRingInfo()
ring_info.NumRings()
ring_info.AtomRings()  # 返回原子索引元组

# 检查原子是否在环中
atom = mol.GetAtomWithIdx(0)
atom.IsInRing()
atom.IsInRingSize(6)  # 检查6元环

# 查找最小环集(SSSR)
from rdkit.Chem import GetSymmSSSR
rings = GetSymmSSSR(mol)

立体化学:

# 查找手性中心
from rdkit.Chem import FindMolChiralCenters
chiral_centers = FindMolChiralCenters(mol, includeUnassigned=True)
# 返回(原子索引,手性)元组列表

# 从3D坐标分配立体化学
from rdkit.Chem import AssignStereochemistryFrom3D
AssignStereochemistryFrom3D(mol)

# 检查键立体化学
bond = mol.GetBondWithIdx(0)
stereo = bond.GetStereo()  # STEREONONE、STEREOZ、STEREOE 等

片段分析:

# 获取断开片段
frags = Chem.GetMolFrags(mol, asMols=True)

# 在特定键上片段化
from rdkit.Chem import FragmentOnBonds
frag_mol = FragmentOnBonds(mol, [bond_idx1, bond_idx2])

# 计数环系统
from rdkit.Chem.Scaffolds import MurckoScaffold
scaffold = MurckoScaffold.GetScaffoldForMol(mol)

4. 分子描述符和性质

基本描述符:

from rdkit.Chem import Descriptors

# 分子量
mw = Descriptors.MolWt(mol)
exact_mw = Descriptors.ExactMolWt(mol)

# LogP(亲脂性)
logp = Descriptors.MolLogP(mol)

# 拓扑极性表面积
tpsa = Descriptors.TPSA(mol)

# 氢键供体/受体数
hbd = Descriptors.NumHDonors(mol)
hba = Descriptors.NumHAcceptors(mol)

# 可旋转键数
rot_bonds = Descriptors.NumRotatableBonds(mol)

# 芳香环数
aromatic_rings = Descriptors.NumAromaticRings(mol)

批量描述符计算:

# 一次计算所有描述符
all_descriptors = Descriptors.CalcMolDescriptors(mol)
# 返回字典:{'MolWt': 180.16, 'MolLogP': 1.23, ...}

# 获取可用描述符名称列表
descriptor_names = [desc[0] for desc in Descriptors._descList]

利宾斯基五规则:

# 检查药物相似性
mw = Descriptors.MolWt(mol) <= 500
logp = Descriptors.MolLogP(mol) <= 5
hbd = Descriptors.NumHDonors(mol) <= 5
hba = Descriptors.NumHAcceptors(mol) <= 10

is_drug_like = mw and logp and hbd and hba

5. 指纹和分子相似性

指纹类型:

from rdkit.Chem import AllChem, RDKFingerprint
from rdkit.Chem.AtomPairs import Pairs, Torsions
from rdkit.Chem import MACCSkeys

# RDKit 拓扑指纹
fp = Chem.RDKFingerprint(mol)

# Morgan 指纹(圆形指纹,类似于 ECFP)
fp = AllChem.GetMorganFingerprint(mol, radius=2)
fp_bits = AllChem.GetMorganFingerprintAsBitVect(mol, radius=2, nBits=2048)

# MACCS 键(166位结构键)
fp = MACCSkeys.GenMACCSKeys(mol)

# 原子对指纹
fp = Pairs.GetAtomPairFingerprint(mol)

# 拓扑扭转指纹
fp = Torsions.GetTopologicalTorsionFingerprint(mol)

# Avalon 指纹(如果可用)
from rdkit.Avalon import pyAvalonTools
fp = pyAvalonTools.GetAvalonFP(mol)

相似性计算:

from rdkit import DataStructs

# 计算 Tanimoto 相似性
fp1 = AllChem.GetMorganFingerprintAsBitVect(mol1, radius=2)
fp2 = AllChem.GetMorganFingerprintAsBitVect(mol2, radius=2)
similarity = DataStructs.TanimotoSimilarity(fp1, fp2)

# 计算多个分子的相似性
similarities = DataStructs.BulkTanimotoSimilarity(fp1, [fp2, fp3, fp4])

# 其他相似性度量
dice = DataStructs.DiceSimilarity(fp1, fp2)
cosine = DataStructs.CosineSimilarity(fp1, fp2)

聚类和多样性:

# 基于指纹相似性的 Butina 聚类
from rdkit.ML.Cluster import Butina

# 计算距离矩阵
dists = []
fps = [AllChem.GetMorganFingerprintAsBitVect(mol, 2) for mol in mols]
for i in range(len(fps)):
    sims = DataStructs.BulkTanimotoSimilarity(fps[i], fps[:i])
    dists.extend([1-sim for sim in sims])

# 使用距离截止聚类
clusters = Butina.ClusterData(dists, len(fps), distThresh=0.3, isDistData=True)

6. 子结构搜索和 SMARTS

基本子结构匹配:

# 使用 SMARTS 定义查询
query = Chem.MolFromSmarts('[#6]1:[#6]:[#6]:[#6]:[#6]:[#6]:1')  # 苯环

# 检查分子是否包含子结构
has_match = mol.HasSubstructMatch(query)

# 获取所有匹配(返回原子索引元组的元组)
matches = mol.GetSubstructMatches(query)

# 仅获取第一个匹配
match = mol.GetSubstructMatch(query)

常见 SMARTS 模式:

# 伯醇
primary_alcohol = Chem.MolFromSmarts('[CH2][OH1]')

# 羧酸
carboxylic_acid = Chem.MolFromSmarts('C(=O)[OH]')

# 酰胺
amide = Chem.MolFromSmarts('C(=O)N')

# 芳香杂环
aromatic_n = Chem.MolFromSmarts('[nR]')  # 环中芳香氮

# 大环(环 > 12 原子)
macrocycle = Chem.MolFromSmarts('[r{12-}]')

匹配规则:

  • 查询中未指定的属性匹配目标中的任何值
  • 除非明确指定,否则忽略氢
  • 带电查询原子不匹配未带电目标原子
  • 芳香查询原子不匹配脂肪族目标原子(除非查询是通用的)

7. 化学反应

反应 SMARTS:

from rdkit.Chem import AllChem

# 使用 SMARTS 定义反应:反应物 >> 产物
rxn = AllChem.ReactionFromSmarts('[C:1]=[O:2]>>[C:1][O:2]')  # 酮还原

# 将反应应用于分子
reactants = (mol1,)
products = rxn.RunReactants(reactants)

# 产物是元组的元组(每个产物集一个元组)
for product_set in products:
    for product in product_set:
        # 净化产物
        Chem.SanitizeMol(product)

反应特征:

  • 原子映射保留反应物和产物之间的特定原子
  • 产物中的虚拟原子由相应反应物原子替换
  • “任何”键继承反应物的键序
  • 除非显式更改,否则手性保留

反应相似性:

# 生成反应指纹
fp = AllChem.CreateDifferenceFingerprintForReaction(rxn)

# 比较反应
similarity = DataStructs.TanimotoSimilarity(fp1, fp2)

8. 2D 和 3D 坐标生成

2D 坐标生成:

from rdkit.Chem import AllChem

# 为描绘生成 2D 坐标
AllChem.Compute2DCoords(mol)

# 将分子对齐到模板结构
template = Chem.MolFromSmiles('c1ccccc1')
AllChem.Compute2DCoords(template)
AllChem.GenerateDepictionMatching2DStructure(mol, template)

3D 坐标生成和构象:

# 使用 ETKDG 生成单个 3D 构象
AllChem.EmbedMolecule(mol, randomSeed=42)

# 生成多个构象
conf_ids = AllChem.EmbedMultipleConfs(mol, numConfs=10, randomSeed=42)

# 用力场优化几何
AllChem.UFFOptimizeMolecule(mol)  # UFF 力场
AllChem.MMFFOptimizeMolecule(mol)  # MMFF94 力场

# 优化所有构象
for conf_id in conf_ids:
    AllChem.MMFFOptimizeMolecule(mol, confId=conf_id)

# 计算构象间的 RMSD
from rdkit.Chem import AllChem
rms = AllChem.GetConformerRMS(mol, conf_id1, conf_id2)

# 对齐分子
AllChem.AlignMol(probe_mol, ref_mol)

约束嵌入:

# 嵌入时约束部分分子到特定坐标
AllChem.ConstrainedEmbed(mol, core_mol)

9. 分子可视化

基本绘图:

from rdkit.Chem import Draw

# 绘制单个分子到 PIL 图像
img = Draw.MolToImage(mol, size=(300, 300))
img.save('molecule.png')

# 直接绘制到文件
Draw.MolToFile(mol, 'molecule.png')

# 在网格中绘制多个分子
mols = [mol1, mol2, mol3, mol4]
img = Draw.MolsToGridImage(mols, molsPerRow=2, subImgSize=(200, 200))

高亮子结构:

# 高亮子结构匹配
query = Chem.MolFromSmarts('c1ccccc1')
match = mol.GetSubstructMatch(query)

img = Draw.MolToImage(mol, highlightAtoms=match)

# 自定义高亮颜色
highlight_colors = {atom_idx: (1, 0, 0) for atom_idx in match}  # 红色
img = Draw.MolToImage(mol, highlightAtoms=match,
                      highlightAtomColors=highlight_colors)

自定义可视化:

from rdkit.Chem.Draw import rdMolDraw2D

# 创建具有自定义选项的绘图器
drawer = rdMolDraw2D.MolDraw2DCairo(300, 300)
opts = drawer.drawOptions()

# 自定义选项
opts.addAtomIndices = True
opts.addStereoAnnotation = True
opts.bondLineWidth = 2

# 绘制分子
drawer.DrawMolecule(mol)
drawer.FinishDrawing()

# 保存到文件
with open('molecule.png', 'wb') as f:
    f.write(drawer.GetDrawingText())

Jupyter Notebook 集成:

# 在 Jupyter 中启用内联显示
from rdkit.Chem.Draw import IPythonConsole

# 自定义默认显示
IPythonConsole.ipython_useSVG = True  # 使用 SVG 代替 PNG
IPythonConsole.molSize = (300, 300)   # 默认大小

# 分子现在自动显示
mol  # 显示分子图像

可视化指纹位:

# 显示指纹位表示的分子特征
from rdkit.Chem import Draw

# 对于 Morgan 指纹
bit_info = {}
fp = AllChem.GetMorganFingerprintAsBitVect(mol, radius=2, bitInfo=bit_info)

# 绘制特定位的环境
img = Draw.DrawMorganBit(mol, bit_id, bit_info)

10. 分子修饰

添加/去除氢:

# 添加显式氢
mol_h = Chem.AddHs(mol)

# 去除显式氢
mol = Chem.RemoveHs(mol_h)

凯库勒化和芳香性:

# 将芳香键转换为交替的单/双键
Chem.Kekulize(mol)

# 设置芳香性
Chem.SetAromaticity(mol)

替换子结构:

# 用另一个结构替换子结构
query = Chem.MolFromSmarts('c1ccccc1')  # 苯
replacement = Chem.MolFromSmiles('C1CCCCC1')  # 环己烷

new_mol = Chem.ReplaceSubstructs(mol, query, replacement)[0]

中和电荷:

# 通过添加/去除氢去除形式电荷
from rdkit.Chem.MolStandardize import rdMolStandardize

# 使用 Uncharger
uncharger = rdMolStandardize.Uncharger()
mol_neutral = uncharger.uncharge(mol)

11. 分子哈希和标准化

分子哈希:

from rdkit.Chem import rdMolHash

# 生成 Murcko 骨架哈希
scaffold_hash = rdMolHash.MolHash(mol, rdMolHash.HashFunction.MurckoScaffold)

# 规范 SMILES 哈希
canonical_hash = rdMolHash.MolHash(mol, rdMolHash.HashFunction.CanonicalSmiles)

# 区域异构哈希(忽略立体化学)
regio_hash = rdMolHash.MolHash(mol, rdMolHash.HashFunction.Regioisomer)

随机 SMILES:

# 生成随机 SMILES 表示(用于数据增强)
from rdkit.Chem import MolToRandomSmilesVect

random_smiles = MolToRandomSmilesVect(mol, numSmiles=10, randomSeed=42)

12. 药效团和 3D 特征

药效团特征:

from rdkit.Chem import ChemicalFeatures
from rdkit import RDConfig
import os

# 加载特征工厂
fdef_path = os.path.join(RDConfig.RDDataDir, 'BaseFeatures.fdef')
factory = ChemicalFeatures.BuildFeatureFactory(fdef_path)

# 获取药效团特征
features = factory.GetFeaturesForMol(mol)

for feat in features:
    print(feat.GetFamily(), feat.GetType(), feat.GetAtomIds())

常见工作流

药物相似性分析

from rdkit import Chem
from rdkit.Chem import Descriptors

def analyze_druglikeness(smiles):
    mol = Chem.MolFromSmiles(smiles)
    if mol is None:
        return None

    # 计算利宾斯基描述符
    results = {
        'MW': Descriptors.MolWt(mol),
        'LogP': Descriptors.MolLogP(mol),
        'HBD': Descriptors.NumHDonors(mol),
        'HBA': Descriptors.NumHAcceptors(mol),
        'TPSA': Descriptors.TPSA(mol),
        'RotBonds': Descriptors.NumRotatableBonds(mol)
    }

    # 检查利宾斯基五规则
    results['Lipinski'] = (
        results['MW'] <= 500 and
        results['LogP'] <= 5 and
        results['HBD'] <= 5 and
        results['HBA'] <= 10
    )

    return results

相似性筛选

from rdkit import Chem
from rdkit.Chem import AllChem
from rdkit import DataStructs

def similarity_screen(query_smiles, database_smiles, threshold=0.7):
    query_mol = Chem.MolFromSmiles(query_smiles)
    query_fp = AllChem.GetMorganFingerprintAsBitVect(query_mol, 2)

    hits = []
    for idx, smiles in enumerate(database_smiles):
        mol = Chem.MolFromSmiles(smiles)
        if mol:
            fp = AllChem.GetMorganFingerprintAsBitVect(mol, 2)
            sim = DataStructs.TanimotoSimilarity(query_fp, fp)
            if sim >= threshold:
                hits.append((idx, smiles, sim))

    return sorted(hits, key=lambda x: x[2], reverse=True)

子结构过滤

from rdkit import Chem

def filter_by_substructure(smiles_list, pattern_smarts):
    query = Chem.MolFromSmarts(pattern_smarts)

    hits = []
    for smiles in smiles_list:
        mol = Chem.MolFromSmiles(smiles)
        if mol and mol.HasSubstructMatch(query):
            hits.append(smiles)

    return hits

最佳实践

错误处理

解析分子时始终检查 None

mol = Chem.MolFromSmiles(smiles)
if mol is None:
    print(f"解析失败: {smiles}")
    continue

性能优化

使用二进制格式存储:

import pickle

# 腌制分子以便快速加载
with open('molecules.pkl', 'wb') as f:
    pickle.dump(mols, f)

# 加载腌制分子(比重新解析快得多)
with open('molecules.pkl', 'rb') as f:
    mols = pickle.load(f)

使用批量操作:

# 一次计算所有分子的指纹
fps = [AllChem.GetMorganFingerprintAsBitVect(mol, 2) for mol in mols]

# 使用批量相似性计算
similarities = DataStructs.BulkTanimotoSimilarity(fps[0], fps[1:])

线程安全

RDKit 操作通常线程安全:

  • 分子输入/输出(SMILES、mol 块)
  • 坐标生成
  • 指纹和描述符
  • 子结构搜索
  • 反应
  • 绘图

非线程安全: 并发访问时的 MolSuppliers。

内存管理

对于大数据集:

# 使用 ForwardSDMolSupplier 避免加载整个文件
with open('large.sdf') as f:
    suppl = Chem.ForwardSDMolSupplier(f)
    for mol in suppl:
        # 一次处理一个分子
        pass

# 使用 MultithreadedSDMolSupplier 进行并行处理
suppl = Chem.MultithreadedSDMolSupplier('large.sdf', numWriterThreads=4)

常见陷阱

  1. 忘记检查 None: 解析后始终验证分子
  2. 净化失败: 使用 DetectChemistryProblems() 进行调试
  3. 缺少氢: 计算依赖氢的性质时使用 AddHs()
  4. 2D vs 3D: 在可视化或 3D 分析前生成适当坐标
  5. SMARTS 匹配规则: 记住未指定属性匹配任何内容
  6. MolSuppliers 的线程安全: 不要在跨线程共享供应商对象

资源

references/

此技能包括详细的 API 参考文档:

  • api_reference.md - 按功能组织的 RDKit 模块、函数和类的全面列表
  • descriptors_reference.md - 可用分子描述符的完整列表及描述
  • smarts_patterns.md - 功能基团和结构特征的常见 SMARTS 模式

需要特定 API 细节、参数信息或模式示例时加载这些参考。

scripts/

常见 RDKit 工作流的示例脚本:

  • molecular_properties.py - 计算全面的分子性质和描述符
  • similarity_search.py - 执行基于指纹的相似性筛选
  • substructure_filter.py - 按子结构模式过滤分子

这些脚本可以直接执行或用作自定义工作流的模板。