name: boltz description: > 使用Boltz-1/Boltz-2进行生物分子结构预测,这是一个开源的生物分子结构预测工具。 在以下情况使用此技能:(1) 预测蛋白质复合物结构, (2) 验证设计的结合蛋白, (3) 需要AlphaFold2的开源替代方案, (4) 预测蛋白质-配体复合物, (5) 使用本地GPU资源时。
对于质量控制阈值,请使用protein-qc技能。 对于AlphaFold2预测,请使用alphafold技能。 对于Chai预测,请使用chai技能。 license: MIT category: design-tools tags: [structure-prediction, validation, open-source] biomodals_script: modal_boltz.py
Boltz 结构预测
先决条件
| 要求 | 最低配置 | 推荐配置 |
|---|---|---|
| Python | 3.10+ | 3.11 |
| CUDA | 12.0+ | 12.1+ |
| GPU显存 | 24GB | 48GB (L40S) |
| 内存 | 32GB | 64GB |
如何运行
第一次使用? 请参阅安装指南来设置Modal和biomodals。
选项1:使用Modal
cd biomodals
modal run modal_boltz.py \
--input-faa complex.fasta \
--out-dir predictions/
GPU要求: L40S (48GB) | 超时设置: 默认1800秒
选项2:本地安装
pip install boltz
boltz predict \
--fasta complex.fasta \
--output predictions/
关键参数
| 参数 | 默认值 | 范围 | 描述 |
|---|---|---|---|
--recycling_steps |
3 | 1-10 | 循环迭代次数 |
--sampling_steps |
200 | 50-500 | 扩散步骤数 |
--use_msa_server |
true | bool | 是否使用MSA服务器 |
FASTA格式
>protein_A
MKTAYIAKQRQISFVK...
>protein_B
MVLSPADKTNVKAAWG...
输出格式
predictions/
├── model_0.cif # 最佳模型 (CIF格式)
├── confidence.json # pLDDT, pTM, ipTM 置信度分数
└── pae.npy # PAE矩阵
注意: Boltz输出CIF格式。如需转换为PDB格式:
from Bio.PDB import MMCIFParser, PDBIO
parser = MMCIFParser()
structure = parser.get_structure("model", "model_0.cif")
io = PDBIO()
io.set_structure(structure)
io.save("model_0.pdb")
对比
| 特性 | Boltz-1 | Boltz-2 | AF2-Multimer |
|---|---|---|---|
| 无需MSA模式 | 支持 | 支持 | 不支持 |
| 扩散模型 | 支持 | 支持 | 不支持 |
| 速度 | 快 | 更快 | 较慢 |
| 开源 | 是 | 是 | 是 |
示例输出
成功运行
$ boltz predict --fasta complex.fasta --output predictions/
[INFO] 加载Boltz-1权重...
[INFO] 预测结构中...
[INFO] 模型已保存至 predictions/model_0.cif
predictions/confidence.json:
{
"ptm": 0.78,
"iptm": 0.65,
"plddt": 0.81
}
良好输出的标准:
- pTM: > 0.7 (全局结构置信度高)
- ipTM: > 0.5 (界面区域置信度高)
- pLDDT: > 0.7 (每个残基置信度高)
- CIF文件: 典型复合物约100-500 KB
决策树
我应该使用Boltz吗?
│
├─ 您要预测什么?
│ ├─ 蛋白质-蛋白质复合物 → Boltz ✓ 或 Chai 或 ColabFold
│ ├─ 蛋白质 + 配体 → Boltz ✓ 或 Chai
│ └─ 单个蛋白质 → 使用ESMFold (更快)
│
├─ 需要MSA吗?
│ ├─ 不需要 / 追求速度 → Boltz ✓
│ └─ 需要 / 追求最高精度 → ColabFold
│
└─ 为什么选择Boltz而非Chai?
├─ 偏好开源权重 → Boltz ✓
├─ Boltz-2速度优势 → Boltz ✓
└─ 需要DNA/RNA支持 → 考虑Chai
典型性能
| 任务规模 | 时间 (L40S) | 成本 (Modal) | 备注 |
|---|---|---|---|
| 100个复合物 | 30-45 分钟 | ~$8 | 标准验证 |
| 500个复合物 | 2-3小时 | ~$35 | 大型任务 |
| 1000个复合物 | 4-6小时 | ~$70 | 全面验证 |
单个复合物: 典型的结合蛋白-靶标复合物约需15-30秒。
验证
find predictions -name "*.cif" | wc -l # 应与输入数量匹配
故障排除
置信度低: 增加recycling_steps参数 内存不足错误: 使用无需MSA模式或A100-80GB GPU 预测速度慢: 减少sampling_steps参数
错误解读
| 错误 | 原因 | 解决方法 |
|---|---|---|
RuntimeError: CUDA out of memory |
复合物过大 | 使用--use_msa_server false或更大的GPU |
KeyError: 'iptm' |
仅单链 | 确保FASTA文件包含2条或更多链 |
FileNotFoundError: weights |
缺少模型文件 | 先运行boltz download |
ValueError: invalid residue |
非标准氨基酸 | 检查序列中是否存在修饰残基 |
Boltz-1 与 Boltz-2 对比
| 方面 | Boltz-1 | Boltz-2 |
|---|---|---|
| 速度 | 快 | 约快2倍 |
| 准确度 | 良好 | 有所提升 |
| 配体支持 | 基础 | 更好的支持 |
| 发布时间 | 2024年 | 2024年底 |
下一步: 使用protein-qc技能进行筛选和排序。