Boltz结构预测Skill boltz

Boltz结构预测是一个开源的生物分子结构预测工具,主要用于预测蛋白质复合物、蛋白质-配体复合物的三维结构,是AlphaFold2的开源替代方案。该工具支持MSA-free模式,基于扩散模型,运行速度快,特别适合需要本地GPU资源、验证设计结合蛋白或进行大规模结构预测的场景。关键词:蛋白质结构预测,生物信息学,开源AI,AlphaFold2替代,复合物建模,扩散模型,MSA-free,本地GPU部署。

合成生物学 1 次安装 8 次浏览 更新于 2/27/2026

name: boltz description: > 使用Boltz-1/Boltz-2进行生物分子结构预测,这是一个开源的生物分子结构预测工具。 在以下情况使用此技能:(1) 预测蛋白质复合物结构, (2) 验证设计的结合蛋白, (3) 需要AlphaFold2的开源替代方案, (4) 预测蛋白质-配体复合物, (5) 使用本地GPU资源时。

对于质量控制阈值,请使用protein-qc技能。 对于AlphaFold2预测,请使用alphafold技能。 对于Chai预测,请使用chai技能。 license: MIT category: design-tools tags: [structure-prediction, validation, open-source] biomodals_script: modal_boltz.py

Boltz 结构预测

先决条件

要求 最低配置 推荐配置
Python 3.10+ 3.11
CUDA 12.0+ 12.1+
GPU显存 24GB 48GB (L40S)
内存 32GB 64GB

如何运行

第一次使用? 请参阅安装指南来设置Modal和biomodals。

选项1:使用Modal

cd biomodals
modal run modal_boltz.py \
  --input-faa complex.fasta \
  --out-dir predictions/

GPU要求: L40S (48GB) | 超时设置: 默认1800秒

选项2:本地安装

pip install boltz

boltz predict \
  --fasta complex.fasta \
  --output predictions/

关键参数

参数 默认值 范围 描述
--recycling_steps 3 1-10 循环迭代次数
--sampling_steps 200 50-500 扩散步骤数
--use_msa_server true bool 是否使用MSA服务器

FASTA格式

>protein_A
MKTAYIAKQRQISFVK...
>protein_B
MVLSPADKTNVKAAWG...

输出格式

predictions/
├── model_0.cif       # 最佳模型 (CIF格式)
├── confidence.json   # pLDDT, pTM, ipTM 置信度分数
└── pae.npy          # PAE矩阵

注意: Boltz输出CIF格式。如需转换为PDB格式:

from Bio.PDB import MMCIFParser, PDBIO
parser = MMCIFParser()
structure = parser.get_structure("model", "model_0.cif")
io = PDBIO()
io.set_structure(structure)
io.save("model_0.pdb")

对比

特性 Boltz-1 Boltz-2 AF2-Multimer
无需MSA模式 支持 支持 不支持
扩散模型 支持 支持 不支持
速度 更快 较慢
开源

示例输出

成功运行

$ boltz predict --fasta complex.fasta --output predictions/
[INFO] 加载Boltz-1权重...
[INFO] 预测结构中...
[INFO] 模型已保存至 predictions/model_0.cif

predictions/confidence.json:
{
  "ptm": 0.78,
  "iptm": 0.65,
  "plddt": 0.81
}

良好输出的标准:

  • pTM: > 0.7 (全局结构置信度高)
  • ipTM: > 0.5 (界面区域置信度高)
  • pLDDT: > 0.7 (每个残基置信度高)
  • CIF文件: 典型复合物约100-500 KB

决策树

我应该使用Boltz吗?
│
├─ 您要预测什么?
│  ├─ 蛋白质-蛋白质复合物 → Boltz ✓ 或 Chai 或 ColabFold
│  ├─ 蛋白质 + 配体 → Boltz ✓ 或 Chai
│  └─ 单个蛋白质 → 使用ESMFold (更快)
│
├─ 需要MSA吗?
│  ├─ 不需要 / 追求速度 → Boltz ✓
│  └─ 需要 / 追求最高精度 → ColabFold
│
└─ 为什么选择Boltz而非Chai?
   ├─ 偏好开源权重 → Boltz ✓
   ├─ Boltz-2速度优势 → Boltz ✓
   └─ 需要DNA/RNA支持 → 考虑Chai

典型性能

任务规模 时间 (L40S) 成本 (Modal) 备注
100个复合物 30-45 分钟 ~$8 标准验证
500个复合物 2-3小时 ~$35 大型任务
1000个复合物 4-6小时 ~$70 全面验证

单个复合物: 典型的结合蛋白-靶标复合物约需15-30秒。


验证

find predictions -name "*.cif" | wc -l  # 应与输入数量匹配

故障排除

置信度低: 增加recycling_steps参数 内存不足错误: 使用无需MSA模式或A100-80GB GPU 预测速度慢: 减少sampling_steps参数

错误解读

错误 原因 解决方法
RuntimeError: CUDA out of memory 复合物过大 使用--use_msa_server false或更大的GPU
KeyError: 'iptm' 仅单链 确保FASTA文件包含2条或更多链
FileNotFoundError: weights 缺少模型文件 先运行boltz download
ValueError: invalid residue 非标准氨基酸 检查序列中是否存在修饰残基

Boltz-1 与 Boltz-2 对比

方面 Boltz-1 Boltz-2
速度 约快2倍
准确度 良好 有所提升
配体支持 基础 更好的支持
发布时间 2024年 2024年底

下一步: 使用protein-qc技能进行筛选和排序。