name: protein-design-workflow description: > 蛋白质设计流程的端到端指导。 在以下情况下使用此技能:(1) 启动新的蛋白质设计项目时, (2) 需要分步工作流指导时, (3) 理解完整的设计流程时, (4) 规划计算资源和时间线时, (5) 集成多种设计工具时。
对于工具选择,请使用 binder-design。 对于质量控制阈值,请使用 protein-qc。 license: MIT category: orchestration tags: [guidance, pipeline, workflow]
蛋白质设计工作流指南
标准结合剂设计流程
概述
靶标准备 --> 骨架生成 --> 序列设计
| | |
v v v
(pdb技能) (rfdiffusion) (proteinmpnn)
| |
v v
结构验证 --> 筛选
| |
v v
(alphafold/chai) (protein-qc)
阶段1:靶标准备
1.1 获取靶标结构
# 从PDB下载
curl -o target.pdb "https://files.rcsb.org/download/XXXX.pdb"
1.2 清理和准备
# 提取靶标链
# 如果需要,移除水分子、配体
# 截取至结合区域 + 10Å缓冲区
1.3 选择热点
- 选择3-6个暴露的残基
- 优先选择带电/芳香族残基(K、R、E、D、W、Y、F)
- 检查表面可及性
- 验证残基编号
输出:target_prepared.pdb,热点列表
阶段2:骨架生成
选项A:RFdiffusion(多样化探索)
modal run modal_rfdiffusion.py \
--pdb target_prepared.pdb \
--contigs "A1-150/0 70-100" \
--hotspot "A45,A67,A89" \
--num-designs 500
选项B:BindCraft(端到端)
modal run modal_bindcraft.py \
--target-pdb target_prepared.pdb \
--hotspots "A45,A67,A89" \
--num-designs 100
输出:100-500个骨架PDB文件
阶段3:序列设计
针对RFdiffusion生成的骨架
for backbone in backbones/*.pdb; do
modal run modal_proteinmpnn.py \
--pdb-path "$backbone" \
--num-seq-per-target 8 \
--sampling-temp 0.1
done
输出:每个骨架8条序列(总计800-4000条)
阶段4:结构验证
预测复合物
# 准备结合剂 + 靶标的FASTA文件
# 多聚体格式:结合剂:靶标
modal run modal_colabfold.py \
--input-faa all_sequences.fasta \
--out-dir predictions/
输出:包含pLDDT、ipTM、PAE的AlphaFold2预测结果
阶段5:筛选与选择
应用标准阈值
import pandas as pd
# 加载指标
designs = pd.read_csv('all_metrics.csv')
# 筛选
filtered = designs[
(designs['pLDDT'] > 0.85) &
(designs['ipTM'] > 0.50) &
(designs['PAE_interface'] < 10) &
(designs['scRMSD'] < 2.0) &
(designs['esm2_pll'] > 0.0)
]
# 按综合评分排序
filtered['score'] = (
0.3 * filtered['pLDDT'] +
0.3 * filtered['ipTM'] +
0.2 * (1 - filtered['PAE_interface'] / 20) +
0.2 * filtered['esm2_pll']
)
top_designs = filtered.nlargest(50, 'score')
输出:50-200个筛选后的候选设计
资源规划
计算需求
| 阶段 | GPU | 时间(100个设计) |
|---|---|---|
| RFdiffusion | A10G | 30 分钟 |
| ProteinMPNN | T4 | 15 分钟 |
| ColabFold | A100 | 4-8 小时 |
| 筛选 | CPU | 15 分钟 |
总时间线
- 小型项目(100个设计):8-12 小时
- 中型项目(500个设计):24-48 小时
- 大型项目(1000+个设计):2-5 天
质量检查点
骨架生成后
- [ ] 多样化骨架的视觉检查
- [ ] 存在二级结构
- [ ] 与靶标无碰撞
序列设计后
- [ ] 大多数序列的ESM2 PLL > 0.0
- [ ] 无不需要的半胱氨酸(除非有意设计)
- [ ] 合理的序列多样性
验证后
- [ ] pLDDT > 0.85
- [ ] ipTM > 0.50
- [ ] PAE_interface < 10
- [ ] 自洽性RMSD < 2.0 Å
最终选择
- [ ] 多样化序列(如有需要则进行聚类)
- [ ] 可制造性(无问题基序)
- [ ] 合理的分子量
常见问题
| 问题 | 解决方案 |
|---|---|
| ipTM低 | 检查热点,增加设计数量 |
| 多样性差 | 提高温度,生成更多骨架 |
| scRMSD高 | 骨架可能不寻常 |
| pLDDT低 | 检查设计质量 |
高级工作流
多工具组合
- RFdiffusion 用于初始骨架生成
- ColabDesign 用于精修
- ProteinMPNN 用于多样化
- AF2 用于最终验证
迭代精修
- 运行初始项目
- 分析失败案例
- 调整热点/参数
- 基于洞察重复流程