name: bioservices description: “用于40多个生物信息学服务的主要Python工具。适用于多数据库工作流程：UniProt、KEGG、ChEMBL、PubChem、Reactome、QuickGO。统一的API用于查询、ID映射、通路分析。对于直接REST控制，请使用单个数据库技能（uniprot-database、kegg-database）。”

BioServices

概述

BioServices是一个Python包，提供对大约40个生物信息学网络服务和数据库的程序化访问。在Python工作流程中检索生物数据、执行跨数据库查询、映射标识符、分析序列并集成多个生物资源。该包透明地处理REST和SOAP/WSDL协议。

何时使用此技能

此技能应在以下情况下使用：

从UniProt、PDB、Pfam检索蛋白质序列、注释或结构
通过KEGG或Reactome分析代谢通路和基因功能
在化合物数据库（ChEBI、ChEMBL、PubChem）中搜索化学信息
在不同生物数据库之间转换标识符（KEGG↔UniProt、化合物ID）
运行序列相似性搜索（BLAST、MUSCLE对齐）
查询基因本体术语（QuickGO、GO注释）
访问蛋白质-蛋白质相互作用数据（PSICQUIC、IntactComplex）
挖掘基因组数据（BioMart、ArrayExpress、ENA）
在单个工作流程中集成来自多个生物信息学资源的数据

核心功能

1. 蛋白质分析

检索蛋白质信息、序列和功能注释：

from bioservices import UniProt

u = UniProt(verbose=False)

# 按名称搜索蛋白质
results = u.search("ZAP70_HUMAN", frmt="tab", columns="id,genes,organism")

# 检索FASTA序列
sequence = u.retrieve("P43403", "fasta")

# 在数据库之间映射标识符
kegg_ids = u.mapping(fr="UniProtKB_AC-ID", to="KEGG", query="P43403")

关键方法：

search()：使用灵活搜索词查询UniProt
retrieve()：以各种格式获取蛋白质条目（FASTA、XML、tab）
mapping()：在数据库之间转换标识符

参考：references/services_reference.md获取完整的UniProt API详情。

2. 通路发现与分析

访问KEGG通路信息以获取基因和生物体：

from bioservices import KEGG

k = KEGG()
k.organism = "hsa"  # 设置为人类

# 搜索生物体
k.lookfor_organism("droso")  # 查找果蝇物种

# 按名称查找通路
k.lookfor_pathway("B cell")  # 返回匹配的通路ID

# 获取包含特定基因的通路
pathways = k.get_pathway_by_gene("7535", "hsa")  # ZAP70基因

# 检索和解析通路数据
data = k.get("hsa04660")
parsed = k.parse(data)

# 提取通路相互作用
interactions = k.parse_kgml_pathway("hsa04660")
relations = interactions['relations']  # 蛋白质-蛋白质相互作用

# 转换为简单交互格式
sif_data = k.pathway2sif("hsa04660")

关键方法：

lookfor_organism()、lookfor_pathway()：按名称搜索
get_pathway_by_gene()：查找包含基因的通路
parse_kgml_pathway()：提取结构化通路数据
pathway2sif()：获取蛋白质相互作用网络

参考：references/workflow_patterns.md获取完整的通路分析工作流程。

3. 化合物数据库搜索

在多个数据库中搜索和交叉引用化合物：

from bioservices import KEGG, UniChem

k = KEGG()

# 按名称搜索化合物
results = k.find("compound", "Geldanamycin")  # 返回cpd:C11222

# 获取化合物信息及数据库链接
compound_info = k.get("cpd:C11222")  # 包括ChEBI链接

# 使用UniChem进行KEGG → ChEMBL交叉引用
u = UniChem()
chembl_id = u.get_compound_id_from_kegg("C11222")  # 返回CHEMBL278315

常见工作流程：

在KEGG中按名称搜索化合物
提取KEGG化合物ID
使用UniChem进行KEGG → ChEMBL映射
ChEBI ID通常提供在KEGG条目中

参考：references/identifier_mapping.md获取完整的跨数据库映射指南。

4. 序列分析

运行BLAST搜索和序列对齐：

from bioservices import NCBIblast

s = NCBIblast(verbose=False)

# 针对UniProtKB运行BLASTP
jobid = s.run(
    program="blastp",
    sequence=protein_sequence,
    stype="protein",
    database="uniprotkb",
    email="your.email@example.com"  # NCBI要求
)

# 检查作业状态并检索结果
s.getStatus(jobid)
results = s.getResult(jobid, "out")

注意： BLAST作业是异步的。在检索结果前检查状态。

5. 标识符映射

在不同生物数据库之间转换标识符：

from bioservices import UniProt, KEGG

# UniProt映射（支持多种数据库对）
u = UniProt()
results = u.mapping(
    fr="UniProtKB_AC-ID",  # 源数据库
    to="KEGG",              # 目标数据库
    query="P43403"          # 要转换的标识符
)

# KEGG基因ID → UniProt
kegg_to_uniprot = u.mapping(fr="KEGG", to="UniProtKB_AC-ID", query="hsa:7535")

# 对于化合物，使用UniChem
from bioservices import UniChem
u = UniChem()
chembl_from_kegg = u.get_compound_id_from_kegg("C11222")

支持的映射（UniProt）：

UniProtKB ↔ KEGG
UniProtKB ↔ Ensembl
UniProtKB ↔ PDB
UniProtKB ↔ RefSeq
以及更多（参见references/identifier_mapping.md）

6. 基因本体查询

访问GO术语和注释：

from bioservices import QuickGO

g = QuickGO(verbose=False)

# 检索GO术语信息
term_info = g.Term("GO:0003824", frmt="obo")

# 搜索注释
annotations = g.Annotation(protein="P43403", format="tsv")

7. 蛋白质-蛋白质相互作用

通过PSICQUIC查询相互作用数据库：

from bioservices import PSICQUIC

s = PSICQUIC(verbose=False)

# 查询特定数据库（例如，MINT）
interactions = s.query("mint", "ZAP70 AND species:9606")

# 列出可用的相互作用数据库
databases = s.activeDBs

可用数据库： MINT、IntAct、BioGRID、DIP及30多个其他数据库。

多服务集成工作流程

BioServices擅长结合多个服务进行全面分析。常见集成模式：

完整蛋白质分析流程

执行完整的蛋白质表征工作流程：

python scripts/protein_analysis_workflow.py ZAP70_HUMAN your.email@example.com

此脚本演示：

UniProt搜索蛋白质条目
FASTA序列检索
BLAST相似性搜索
KEGG通路发现
PSICQUIC相互作用映射

通路网络分析

分析生物体的所有通路：

python scripts/pathway_analysis.py hsa output_directory/

提取和分析：

生物体的所有通路ID
每个通路的蛋白质-蛋白质相互作用
相互作用类型分布
导出为CSV/SIF格式

跨数据库化合物搜索

在数据库之间映射化合物标识符：

python scripts/compound_cross_reference.py Geldanamycin

检索：

KEGG化合物ID
ChEBI标识符
ChEMBL标识符
基本化合物属性

批量标识符转换

一次转换多个标识符：

python scripts/batch_id_converter.py input_ids.txt --from UniProtKB_AC-ID --to KEGG

最佳实践

输出格式处理

不同服务以各种格式返回数据：

XML：使用BeautifulSoup解析（大多数SOAP服务）
制表符分隔（TSV）：使用Pandas DataFrame处理表格数据
字典/JSON：直接Python操作
FASTA：使用BioPython集成进行序列分析

速率限制和详细程度

控制API请求行为：

from bioservices import KEGG

k = KEGG(verbose=False)  # 抑制HTTP请求详情
k.TIMEOUT = 30  # 调整慢速连接的超时时间

错误处理

在try-except块中包装服务调用：

try:
    results = u.search("ambiguous_query")
    if results:
        # 处理结果
        pass
except Exception as e:
    print(f"搜索失败: {e}")

生物体代码

使用标准生物体缩写：

hsa：智人（人类）
mmu：小家鼠（小鼠）
dme：黑腹果蝇
sce：酿酒酵母（酵母）

列出所有生物体：k.list("organism")或k.organismIds

与其他工具集成

BioServices与以下工具配合良好：

BioPython：对检索的FASTA数据进行序列分析
Pandas：表格数据操作
PyMOL：3D结构可视化（检索PDB ID）
NetworkX：通路相互作用的网络分析
Galaxy：用于工作流程平台的自定义工具包装器

资源

scripts/

演示完整工作流程的可执行Python脚本：

protein_analysis_workflow.py：端到端蛋白质表征
pathway_analysis.py：KEGG通路发现和网络提取
compound_cross_reference.py：多数据库化合物搜索
batch_id_converter.py：批量标识符映射实用程序

脚本可以直接执行或适应特定用例。

references/

需要时加载的详细文档：

services_reference.md：所有40多个服务及方法的全面列表
workflow_patterns.md：详细的多步骤分析工作流程
identifier_mapping.md：跨数据库ID转换的完整指南

在特定服务或复杂集成任务时加载参考文档。

安装

pip install bioservices

依赖项自动管理。包在Python 3.9-3.12上测试。

附加信息

详细API文档和高级功能，请参考：

官方文档：https://bioservices.readthedocs.io/
源代码：https://github.com/cokelaer/bioservices
references/services_reference.md中的服务特定参考