蛋白质设计工作流Skill protein-design-workflow

本技能提供蛋白质设计的端到端流程指导,涵盖从靶标准备、骨架生成、序列设计到结构验证和筛选的完整工作流。适用于生物医药、合成生物学、药物研发等领域的蛋白质工程和设计项目。关键词:蛋白质设计、工作流、AI蛋白质设计、RFdiffusion、ProteinMPNN、AlphaFold、结构预测、生物信息学、计算生物学。

合成生物学 0 次安装 14 次浏览 更新于 2/27/2026

name: protein-design-workflow description: > 蛋白质设计流程的端到端指导。 在以下情况下使用此技能:(1) 启动新的蛋白质设计项目时, (2) 需要分步工作流指导时, (3) 理解完整的设计流程时, (4) 规划计算资源和时间线时, (5) 集成多种设计工具时。

对于工具选择,请使用 binder-design。 对于质量控制阈值,请使用 protein-qc。 license: MIT category: orchestration tags: [guidance, pipeline, workflow]

蛋白质设计工作流指南

标准结合剂设计流程

概述

靶标准备 --> 骨架生成 --> 序列设计
         |                     |                     |
         v                     v                     v
    (pdb技能)          (rfdiffusion)         (proteinmpnn)
                               |                     |
                               v                     v
                        结构验证 --> 筛选
                               |                     |
                               v                     v
                         (alphafold/chai)      (protein-qc)

阶段1:靶标准备

1.1 获取靶标结构

# 从PDB下载
curl -o target.pdb "https://files.rcsb.org/download/XXXX.pdb"

1.2 清理和准备

# 提取靶标链
# 如果需要,移除水分子、配体
# 截取至结合区域 + 10Å缓冲区

1.3 选择热点

  • 选择3-6个暴露的残基
  • 优先选择带电/芳香族残基(K、R、E、D、W、Y、F)
  • 检查表面可及性
  • 验证残基编号

输出target_prepared.pdb,热点列表

阶段2:骨架生成

选项A:RFdiffusion(多样化探索)

modal run modal_rfdiffusion.py \
  --pdb target_prepared.pdb \
  --contigs "A1-150/0 70-100" \
  --hotspot "A45,A67,A89" \
  --num-designs 500

选项B:BindCraft(端到端)

modal run modal_bindcraft.py \
  --target-pdb target_prepared.pdb \
  --hotspots "A45,A67,A89" \
  --num-designs 100

输出:100-500个骨架PDB文件

阶段3:序列设计

针对RFdiffusion生成的骨架

for backbone in backbones/*.pdb; do
  modal run modal_proteinmpnn.py \
    --pdb-path "$backbone" \
    --num-seq-per-target 8 \
    --sampling-temp 0.1
done

输出:每个骨架8条序列(总计800-4000条)

阶段4:结构验证

预测复合物

# 准备结合剂 + 靶标的FASTA文件
# 多聚体格式:结合剂:靶标

modal run modal_colabfold.py \
  --input-faa all_sequences.fasta \
  --out-dir predictions/

输出:包含pLDDT、ipTM、PAE的AlphaFold2预测结果

阶段5:筛选与选择

应用标准阈值

import pandas as pd

# 加载指标
designs = pd.read_csv('all_metrics.csv')

# 筛选
filtered = designs[
    (designs['pLDDT'] > 0.85) &
    (designs['ipTM'] > 0.50) &
    (designs['PAE_interface'] < 10) &
    (designs['scRMSD'] < 2.0) &
    (designs['esm2_pll'] > 0.0)
]

# 按综合评分排序
filtered['score'] = (
    0.3 * filtered['pLDDT'] +
    0.3 * filtered['ipTM'] +
    0.2 * (1 - filtered['PAE_interface'] / 20) +
    0.2 * filtered['esm2_pll']
)

top_designs = filtered.nlargest(50, 'score')

输出:50-200个筛选后的候选设计

资源规划

计算需求

阶段 GPU 时间(100个设计)
RFdiffusion A10G 30 分钟
ProteinMPNN T4 15 分钟
ColabFold A100 4-8 小时
筛选 CPU 15 分钟

总时间线

  • 小型项目(100个设计):8-12 小时
  • 中型项目(500个设计):24-48 小时
  • 大型项目(1000+个设计):2-5 天

质量检查点

骨架生成后

  • [ ] 多样化骨架的视觉检查
  • [ ] 存在二级结构
  • [ ] 与靶标无碰撞

序列设计后

  • [ ] 大多数序列的ESM2 PLL > 0.0
  • [ ] 无不需要的半胱氨酸(除非有意设计)
  • [ ] 合理的序列多样性

验证后

  • [ ] pLDDT > 0.85
  • [ ] ipTM > 0.50
  • [ ] PAE_interface < 10
  • [ ] 自洽性RMSD < 2.0 Å

最终选择

  • [ ] 多样化序列(如有需要则进行聚类)
  • [ ] 可制造性(无问题基序)
  • [ ] 合理的分子量

常见问题

问题 解决方案
ipTM低 检查热点,增加设计数量
多样性差 提高温度,生成更多骨架
scRMSD高 骨架可能不寻常
pLDDT低 检查设计质量

高级工作流

多工具组合

  1. RFdiffusion 用于初始骨架生成
  2. ColabDesign 用于精修
  3. ProteinMPNN 用于多样化
  4. AF2 用于最终验证

迭代精修

  1. 运行初始项目
  2. 分析失败案例
  3. 调整热点/参数
  4. 基于洞察重复流程