基因组数据分析工具Skill gget

gget 是一个命令行生物信息学工具和Python包,用于快速查询和分析基因组数据,提供对20多个数据库的统一访问,包括基因信息检索、序列对齐、蛋白结构预测、表达数据分析和疾病关联查询等功能。关键词:生物信息学、基因分析、序列对齐、蛋白预测、表达数据、疾病数据库、基因组工具、快速查询、统一接口、Python包。

基因工程 0 次安装 0 次浏览 更新于 3/16/2026

名称: gget 描述: “用于快速生物信息学查询的CLI/Python工具包。适用于快速BLAST搜索。访问20多个数据库:基因信息(Ensembl/UniProt)、AlphaFold、ARCHS4、Enrichr、OpenTargets、COSMIC、基因组下载。对于高级BLAST/批处理,请使用biopython。对于多数据库集成,请使用bioservices。”

gget

概述

gget是一个命令行生物信息学工具和Python包,提供对20多个基因组数据库和分析方法的统一访问。通过一致的接口查询基因信息、序列分析、蛋白结构、表达数据和疾病关联。所有gget模块既可作为命令行工具,也可作为Python函数使用。

重要提示: gget查询的数据库持续更新,有时会改变其结构。gget模块每两周自动测试,并在必要时更新以匹配新数据库结构。

安装

在干净的虚拟环境中安装gget以避免冲突:

# 使用uv(推荐)
uv pip install gget

# 或使用pip
pip install --upgrade gget

# 在Python/Jupyter中
import gget

快速开始

所有模块的基本使用模式:

# 命令行
gget <模块> [参数] [选项]

# Python
gget.模块(参数, 选项)

大多数模块返回:

  • 命令行: JSON(默认)或使用-csv标志的CSV
  • Python: DataFrame或字典

跨模块的常用标志:

  • -o/--out: 保存结果到文件
  • -q/--quiet: 抑制进度信息
  • -csv: 返回CSV格式(仅命令行)

模块类别

1. 参考与基因信息

gget ref - 参考基因组下载

检索Ensembl参考基因组的下载链接和元数据。

参数:

  • species: 属_种格式(例如’homo_sapiens’, ‘mus_musculus’)。快捷方式:‘human’, ‘mouse’
  • -w/--which: 指定返回类型(gtf, cdna, dna, cds, cdrna, pep)。默认:全部
  • -r/--release: Ensembl发布号(默认:最新)
  • -l/--list_species: 列出可用脊椎动物物种
  • -liv/--list_iv_species: 列出可用无脊椎动物物种
  • -ftp: 仅返回FTP链接
  • -d/--download: 下载文件(需要curl)

示例:

# 列出可用物种
gget ref --list_species

# 获取人类的所有参考文件
gget ref homo_sapiens

# 仅下载小鼠的GTF注释
gget ref -w gtf -d mouse
# Python
gget.ref("homo_sapiens")
gget.ref("mus_musculus", which="gtf", download=True)

gget search - 基因搜索

通过名称或描述跨物种定位基因。

参数:

  • searchwords: 一个或多个搜索词(不区分大小写)
  • -s/--species: 目标物种(例如’homo_sapiens’, ‘mouse’)
  • -r/--release: Ensembl发布号
  • -t/--id_type: 返回’gene’(默认)或’transcript’
  • -ao/--andor: ‘or’(默认)查找任意搜索词;'and’要求所有
  • -l/--limit: 返回的最大结果数

返回: ensembl_id, gene_name, ensembl_description, ext_ref_description, biotype, URL

示例:

# 在人类中搜索GABA相关基因
gget search -s human gaba gamma-aminobutyric

# 查找特定基因,要求所有词
gget search -s mouse -ao and pax7 transcription
# Python
gget.search(["gaba", "gamma-aminobutyric"], species="homo_sapiens")

gget info - 基因/转录本信息

从Ensembl、UniProt和NCBI检索全面的基因和转录本元数据。

参数:

  • ens_ids: 一个或多个Ensembl ID(也支持WormBase、Flybase ID)。限制:约1000个ID
  • -n/--ncbi: 禁用NCBI数据检索
  • -u/--uniprot: 禁用UniProt数据检索
  • -pdb: 包括PDB标识符(增加运行时间)

返回: UniProt ID, NCBI基因ID, 主要基因名称, 同义词, 蛋白名称, 描述, 生物类型, 规范转录本

示例:

# 获取多个基因的信息
gget info ENSG00000034713 ENSG00000104853 ENSG00000170296

# 包括PDB ID
gget info ENSG00000034713 -pdb
# Python
gget.info(["ENSG00000034713", "ENSG00000104853"], pdb=True)

gget seq - 序列检索

获取基因和转录本的核苷酸或氨基酸序列。

参数:

  • ens_ids: 一个或多个Ensembl标识符
  • -t/--translate: 获取氨基酸序列而不是核苷酸
  • -iso/--isoforms: 返回所有转录本变体(仅基因ID)

返回: FASTA格式序列

示例:

# 获取核苷酸序列
gget seq ENSG00000034713 ENSG00000104853

# 获取所有蛋白异构体
gget seq -t -iso ENSG00000034713
# Python
gget.seq(["ENSG00000034713"], translate=True, isoforms=True)

2. 序列分析与对齐

gget blast - BLAST搜索

针对标准数据库进行核苷酸或氨基酸序列的BLAST搜索。

参数:

  • sequence: 序列字符串或FASTA/.txt文件路径
  • -p/--program: blastn, blastp, blastx, tblastn, tblastx(自动检测)
  • -db/--database:
    • 核苷酸: nt, refseq_rna, pdbnt
    • 蛋白: nr, swissprot, pdbaa, refseq_protein
  • -l/--limit: 最大命中数(默认:50)
  • -e/--expect: E值截止(默认:10.0)
  • -lcf/--low_comp_filt: 启用低复杂度过滤
  • -mbo/--megablast_off: 禁用MegaBLAST(仅blastn)

示例:

# BLAST蛋白序列
gget blast MKWMFKEDHSLEHRCVESAKIRAKYPDRVPVIVEKVSGSQIVDIDKRKYLVPSDITVAQFMWIIRKRIQLPSEKAIFLFVDKTVPQSR

# 从文件BLAST,指定数据库
gget blast sequence.fasta -db swissprot -l 10
# Python
gget.blast("MKWMFK...", database="swissprot", limit=10)

gget blat - BLAT搜索

使用UCSC BLAT定位序列的基因组位置。

参数:

  • sequence: 序列字符串或FASTA/.txt文件路径
  • -st/--seqtype: ‘DNA’, ‘protein’, ‘translated%20RNA’, ‘translated%20DNA’(自动检测)
  • -a/--assembly: 目标组装(默认:‘human’/hg38;选项:‘mouse’/mm39, ‘zebrafinch’/taeGut2, 等)

返回: 基因组, 查询大小, 对齐位置, 匹配数, 不匹配数, 对齐百分比

示例:

# 在人类中查找基因组位置
gget blat ATCGATCGATCGATCG

# 在不同组装中搜索
gget blat -a mm39 ATCGATCGATCGATCG
# Python
gget.blat("ATCGATCGATCGATCG", assembly="mouse")

gget muscle - 多序列对齐

使用Muscle5对齐多个核苷酸或氨基酸序列。

参数:

  • fasta: 序列或FASTA/.txt文件路径
  • -s5/--super5: 使用Super5算法进行更快处理(大数据集)

返回: ClustalW格式的对齐序列或对齐FASTA (.afa)

示例:

# 从文件对齐序列
gget muscle sequences.fasta -o aligned.afa

# 对大数据集使用Super5
gget muscle large_dataset.fasta -s5
# Python
gget.muscle("sequences.fasta", save=True)

gget diamond - 本地序列对齐

使用DIAMOND执行快速本地蛋白或翻译DNA对齐。

参数:

  • Query: 序列(字符串/列表)或FASTA文件路径
  • --reference: 参考序列(字符串/列表)或FASTA文件路径(必需)
  • --sensitivity: fast, mid-sensitive, sensitive, more-sensitive, very-sensitive(默认), ultra-sensitive
  • --threads: CPU线程数(默认:1)
  • --diamond_db: 保存数据库以供重用
  • --translated: 启用核苷酸到氨基酸对齐

返回: 身份百分比, 序列长度, 匹配位置, 缺口开放数, E值, 比特分数

示例:

# 针对参考对齐
gget diamond GGETISAWESQME -ref reference.fasta --threads 4

# 保存数据库以供重用
gget diamond query.fasta -ref ref.fasta --diamond_db my_db.dmnd
# Python
gget.diamond("GGETISAWESQME", reference="reference.fasta", threads=4)

3. 结构与蛋白分析

gget pdb - 蛋白结构

查询RCSB蛋白数据库获取结构和元数据。

参数:

  • pdb_id: PDB标识符(例如’7S7U’)
  • -r/--resource: 数据类型(pdb, entry, pubmed, assembly, entity types)
  • -i/--identifier: 组装、实体或链ID

返回: PDB格式(结构)或JSON(元数据)

示例:

# 下载PDB结构
gget pdb 7S7U -o 7S7U.pdb

# 获取元数据
gget pdb 7S7U -r entry
# Python
gget.pdb("7S7U", save=True)

gget alphafold - 蛋白结构预测

使用简化AlphaFold2预测3D蛋白结构。

所需设置:

# 首先安装OpenMM(版本取决于Python版本)
# Python < 3.10:
conda install -qy conda==4.13.0 && conda install -qy -c conda-forge openmm=7.5.1
# Python 3.10:
conda install -qy conda==24.1.2 && conda install -qy -c conda-forge openmm=7.7.0
# Python 3.11:
conda install -qy conda==24.11.1 && conda install -qy -c conda-forge openmm=8.0.0

# 然后设置AlphaFold
gget setup alphafold

参数:

  • sequence: 氨基酸序列(字符串)、多个序列(列表)或FASTA文件。多个序列触发多聚体建模
  • -mr/--multimer_recycles: 循环迭代次数(默认:3;推荐20以获得准确性)
  • -mfm/--multimer_for_monomer: 对单个蛋白应用多聚体模型
  • -r/--relax: 对顶级模型进行AMBER松弛
  • plot: 仅Python;生成交互式3D可视化(默认:True)
  • show_sidechains: 仅Python;包括侧链(默认:True)

返回: PDB结构文件, JSON对齐错误数据, 可选的3D可视化

示例:

# 预测单个蛋白结构
gget alphafold MKWMFKEDHSLEHRCVESAKIRAKYPDRVPVIVEKVSGSQIVDIDKRKYLVPSDITVAQFMWIIRKRIQLPSEKAIFLFVDKTVPQSR

# 以更高准确性预测多聚体
gget alphafold sequence1.fasta -mr 20 -r
# Python带可视化
gget.alphafold("MKWMFK...", plot=True, show_sidechains=True)

# 多聚体预测
gget.alphafold(["sequence1", "sequence2"], multimer_recycles=20)

gget elm - 真核线性基序

预测蛋白序列中的真核线性基序。

所需设置:

gget setup elm

参数:

  • sequence: 氨基酸序列或UniProt Acc
  • -u/--uniprot: 表示序列是UniProt Acc
  • -e/--expand: 包括蛋白名称、生物体、参考文献
  • -s/--sensitivity: DIAMOND对齐敏感性(默认:“very-sensitive”)
  • -t/--threads: 线程数(默认:1)

返回: 两个输出:

  1. ortholog_df: 来自同源蛋白的线性基序
  2. regex_df: 在输入序列中直接匹配的基序

示例:

# 从序列预测基序
gget elm LIAQSIGQASFV -o results

# 使用UniProt accession和扩展信息
gget elm --uniprot Q02410 -e
# Python
ortholog_df, regex_df = gget.elm("LIAQSIGQASFV")

4. 表达与疾病数据

gget archs4 - 基因相关性与组织表达

查询ARCHS4数据库获取相关基因或组织表达数据。

参数:

  • gene: 基因符号或Ensembl ID(带--ensembl标志)
  • -w/--which: ‘correlation’(默认,返回100个最相关基因)或’tissue’(表达图谱)
  • -s/--species: ‘human’(默认)或’mouse’(仅组织数据)
  • -e/--ensembl: 输入是Ensembl ID

返回:

  • 相关性模式: 基因符号, 皮尔逊相关系数
  • 组织模式: 组织标识符, 最小/Q1/中位数/Q3/最大表达值

示例:

# 获取相关基因
gget archs4 ACE2

# 获取组织表达
gget archs4 -w tissue ACE2
# Python
gget.archs4("ACE2", which="tissue")

gget cellxgene - 单细胞RNA-seq数据

查询CZ CELLxGENE Discover Census获取单细胞数据。

所需设置:

gget setup cellxgene

参数:

  • --gene (-g): 基因名称或Ensembl ID(区分大小写!‘PAX7’ 用于人类, ‘Pax7’ 用于小鼠)
  • --tissue: 组织类型(s)
  • --cell_type: 特定细胞类型(s)
  • --species (-s): ‘homo_sapiens’(默认)或 ‘mus_musculus’
  • --census_version (-cv): 版本(“stable”, “latest”, 或带日期)
  • --ensembl (-e): 使用Ensembl ID
  • --meta_only (-mo): 仅返回元数据
  • 额外过滤器: disease, development_stage, sex, assay, dataset_id, donor_id, ethnicity, suspension_type

返回: 带计数矩阵和元数据的AnnData对象(或仅元数据的DataFrame)

示例:

# 获取特定基因和细胞类型的单细胞数据
gget cellxgene --gene ACE2 ABCA1 --tissue lung --cell_type "mucus secreting cell" -o lung_data.h5ad

# 仅元数据
gget cellxgene --gene PAX7 --tissue muscle --meta_only -o metadata.csv
# Python
adata = gget.cellxgene(gene=["ACE2", "ABCA1"], tissue="lung", cell_type="mucus secreting cell")

gget enrichr - 富集分析

使用Enrichr对基因列表进行本体富集分析。

参数:

  • genes: 基因符号或Ensembl ID
  • -db/--database: 参考数据库(支持快捷方式:‘pathway’, ‘transcription’, ‘ontology’, ‘diseases_drugs’, ‘celltypes’)
  • -s/--species: human(默认), mouse, fly, yeast, worm, fish
  • -bkg_l/--background_list: 用于比较的背景基因
  • -ko/--kegg_out: 保存带高亮基因的KEGG通路图像
  • plot: 仅Python;生成图形结果

数据库快捷方式:

  • ‘pathway’ → KEGG_2021_Human
  • ‘transcription’ → ChEA_2016
  • ‘ontology’ → GO_Biological_Process_2021
  • ‘diseases_drugs’ → GWAS_Catalog_2019
  • ‘celltypes’ → PanglaoDB_Augmented_2021

示例:

# 对本体进行富集分析
gget enrichr -db ontology ACE2 AGT AGTR1

# 保存KEGG通路
gget enrichr -db pathway ACE2 AGT AGTR1 -ko ./kegg_images/
# Python带绘图
gget.enrichr(["ACE2", "AGT", "AGTR1"], database="ontology", plot=True)

gget bgee - 同源性与表达

从Bgee数据库检索同源性和基因表达数据。

参数:

  • ens_id: Ensembl基因ID或NCBI基因ID(用于非Ensembl物种)。当type=expression时支持多个ID
  • -t/--type: ‘orthologs’(默认)或’expression’

返回:

  • 同源性模式: 跨物种匹配基因及ID、名称、分类信息
  • 表达模式: 解剖实体、置信度分数、表达状态

示例:

# 获取同源性
gget bgee ENSG00000169194

# 获取表达数据
gget bgee ENSG00000169194 -t expression

# 多个基因
gget bgee ENSBTAG00000047356 ENSBTAG00000018317 -t expression
# Python
gget.bgee("ENSG00000169194", type="orthologs")

gget opentargets - 疾病与药物关联

从OpenTargets检索疾病和药物关联。

参数:

  • Ensembl基因ID(必需)
  • -r/--resource: diseases(默认), drugs, tractability, pharmacogenetics, expression, depmap, interactions
  • -l/--limit: 结果计数上限
  • 过滤参数(因资源而异):
    • drugs: --filter_disease
    • pharmacogenetics: --filter_drug
    • expression/depmap: --filter_tissue, --filter_anat_sys, --filter_organ
    • interactions: --filter_protein_a, --filter_protein_b, --filter_gene_b

示例:

# 获取相关疾病
gget opentargets ENSG00000169194 -r diseases -l 5

# 获取相关药物
gget opentargets ENSG00000169194 -r drugs -l 10

# 获取组织表达
gget opentargets ENSG00000169194 -r expression --filter_tissue brain
# Python
gget.opentargets("ENSG00000169194", resource="diseases", limit=5)

gget cbio - cBioPortal癌症基因组学

使用cBioPortal数据绘制癌症基因组学热图。

两个子命令:

search - 查找研究ID:

gget cbio search breast lung

plot - 生成热图:

参数:

  • -s/--study_ids: 空格分隔的cBioPortal研究ID(必需)
  • -g/--genes: 空格分隔的基因名称或Ensembl ID(必需)
  • -st/--stratification: 组织数据的列(tissue, cancer_type, cancer_type_detailed, study_id, sample)
  • -vt/--variation_type: 数据类型(mutation_occurrences, cna_nonbinary, sv_occurrences, cna_occurrences, Consequence)
  • -f/--filter: 按列值过滤(例如’study_id:msk_impact_2017’)
  • -dd/--data_dir: 缓存目录(默认:./gget_cbio_cache)
  • -fd/--figure_dir: 输出目录(默认:./gget_cbio_figures)
  • -dpi: 分辨率(默认:100)
  • -sh/--show: 在窗口中显示图
  • -nc/--no_confirm: 跳过下载确认

示例:

# 搜索研究
gget cbio search esophag ovary

# 创建热图
gget cbio plot -s msk_impact_2017 -g AKT1 ALK BRAF -st tissue -vt mutation_occurrences
# Python
gget.cbio_search(["esophag", "ovary"])
gget.cbio_plot(["msk_impact_2017"], ["AKT1", "ALK"], stratification="tissue")

gget cosmic - COSMIC数据库

搜索COSMIC(癌症体细胞突变目录)数据库。

重要提示: 商业使用需许可费用。需要COSMIC账户凭据。

参数:

  • searchterm: 基因名称、Ensembl ID、突变符号或样本ID
  • -ctp/--cosmic_tsv_path: 下载的COSMIC TSV文件路径(查询必需)
  • -l/--limit: 最大结果数(默认:100)

数据库下载标志:

  • -d/--download_cosmic: 激活下载模式
  • -gm/--gget_mutate: 创建gget mutate的版本
  • -cp/--cosmic_project: 数据库类型(cancer, census, cell_line, resistance, genome_screen, targeted_screen)
  • -cv/--cosmic_version: COSMIC版本
  • -gv/--grch_version: 人类参考基因组(37或38)
  • --email, --password: COSMIC凭据

示例:

# 首先下载数据库
gget cosmic -d --email user@example.com --password xxx -cp cancer

# 然后查询
gget cosmic EGFR -ctp cosmic_data.tsv -l 10
# Python
gget.cosmic("EGFR", cosmic_tsv_path="cosmic_data.tsv", limit=10)

5. 附加工具

gget mutate - 生成突变序列

从突变注释生成突变核苷酸序列。

参数:

  • sequences: FASTA文件路径或直接序列输入(字符串/列表)
  • -m/--mutations: CSV/TSV文件或带突变数据的DataFrame(必需)
  • -mc/--mut_column: 突变列名(默认:‘mutation’)
  • -sic/--seq_id_column: 序列ID列(默认:‘seq_ID’)
  • -mic/--mut_id_column: 突变ID列
  • -k/--k: 侧翼序列长度(默认:30个核苷酸)

返回: FASTA格式的突变序列

示例:

# 单个突变
gget mutate ATCGCTAAGCT -m "c.4G>T"

# 多个序列,从文件突变
gget mutate sequences.fasta -m mutations.csv -o mutated.fasta
# Python
import pandas as pd
mutations_df = pd.DataFrame({"seq_ID": ["seq1"], "mutation": ["c.4G>T"]})
gget.mutate(["ATCGCTAAGCT"], mutations=mutations_df)

gget gpt - OpenAI文本生成

使用OpenAI API生成自然语言文本。

所需设置:

gget setup gpt

重要提示: 免费层限于账户创建后3个月。设置月度计费限制。

参数:

  • prompt: 用于生成的文本输入(必需)
  • api_key: OpenAI认证(必需)
  • 模型配置: temperature, top_p, max_tokens, frequency_penalty, presence_penalty
  • 默认模型: gpt-3.5-turbo(可配置)

示例:

gget gpt "解释CRISPR" --api_key your_key_here
# Python
gget.gpt("解释CRISPR", api_key="your_key_here")

gget setup - 安装依赖

为特定模块安装/下载第三方依赖。

参数:

  • module: 需要依赖安装的模块名称
  • -o/--out: 输出文件夹路径(仅elm模块)

需要设置的模块:

  • alphafold - 下载约4GB的模型参数
  • cellxgene - 安装cellxgene-census(可能不支持最新Python)
  • elm - 下载本地ELM数据库
  • gpt - 配置OpenAI集成

示例:

# 设置AlphaFold
gget setup alphafold

# 设置ELM,自定义目录
gget setup elm -o /path/to/elm_data
# Python
gget.setup("alphafold")

常见工作流程

工作流程1: 基因发现到序列分析

查找并分析感兴趣基因:

# 1. 搜索基因
results = gget.search(["GABA", "receptor"], species="homo_sapiens")

# 2. 获取详细信息
gene_ids = results["ensembl_id"].tolist()
info = gget.info(gene_ids[:5])

# 3. 检索序列
sequences = gget.seq(gene_ids[:5], translate=True)

工作流程2: 序列对齐与结构

对齐序列并预测结构:

# 1. 对齐多个序列
alignment = gget.muscle("sequences.fasta")

# 2. 查找相似序列
blast_results = gget.blast(my_sequence, database="swissprot", limit=10)

# 3. 预测结构
structure = gget.alphafold(my_sequence, plot=True)

# 4. 查找线性基序
ortholog_df, regex_df = gget.elm(my_sequence)

工作流程3: 基因表达与富集

分析表达模式和功能富集:

# 1. 获取组织表达
tissue_expr = gget.archs4("ACE2", which="tissue")

# 2. 查找相关基因
correlated = gget.archs4("ACE2", which="correlation")

# 3. 获取单细胞数据
adata = gget.cellxgene(gene=["ACE2"], tissue="lung", cell_type="epithelial cell")

# 4. 执行富集分析
gene_list = correlated["gene_symbol"].tolist()[:50]
enrichment = gget.enrichr(gene_list, database="ontology", plot=True)

工作流程4: 疾病与药物分析

研究疾病关联和治疗目标:

# 1. 搜索基因
genes = gget.search(["breast cancer"], species="homo_sapiens")

# 2. 获取疾病关联
diseases = gget.opentargets("ENSG00000169194", resource="diseases")

# 3. 获取药物关联
drugs = gget.opentargets("ENSG00000169194", resource="drugs")

# 4. 查询癌症基因组学数据
study_ids = gget.cbio_search(["breast"])
gget.cbio_plot(study_ids[:2], ["BRCA1", "BRCA2"], stratification="cancer_type")

# 5. 在COSMIC中搜索突变
cosmic_results = gget.cosmic("BRCA1", cosmic_tsv_path="cosmic.tsv")

工作流程5: 比较基因组学

跨物种比较蛋白:

# 1. 获取同源性
orthologs = gget.bgee("ENSG00000169194", type="orthologs")

# 2. 获取序列用于比较
human_seq = gget.seq("ENSG00000169194", translate=True)
mouse_seq = gget.seq("ENSMUSG00000026091", translate=True)

# 3. 对齐序列
alignment = gget.muscle([human_seq, mouse_seq])

# 4. 比较结构
human_structure = gget.pdb("7S7U")
mouse_structure = gget.alphafold(mouse_seq)

工作流程6: 构建参考索引

为下游分析准备参考数据(例如kallisto|bustools):

# 1. 列出可用物种
gget ref --list_species

# 2. 下载参考文件
gget ref -w gtf -w cdna -d homo_sapiens

# 3. 构建kallisto索引
kallisto index -i transcriptome.idx transcriptome.fasta

# 4. 下载基因组用于对齐
gget ref -w dna -d homo_sapiens

最佳实践

数据检索

  • 使用--limit控制大型查询的结果大小
  • 使用-o/--out保存结果以确保可重复性
  • 检查数据库版本/发布以确保跨分析的一致性
  • 在生产脚本中使用--quiet减少输出

序列分析

  • 对于BLAST/BLAT,从默认参数开始,然后调整敏感性
  • 使用gget diamond--threads进行更快的本地对齐
  • 使用--diamond_db保存DIAMOND数据库以供重复查询
  • 对于多序列对齐,使用-s5/--super5处理大数据集

表达与疾病数据

  • 在cellxgene中基因符号区分大小写(例如’PAX7’ vs ‘Pax7’)
  • 在首次使用alphafold、cellxgene、elm、gpt前运行gget setup
  • 对于富集分析,使用数据库快捷方式方便
  • 使用-dd缓存cBioPortal数据以避免重复下载

结构预测

  • AlphaFold多聚体预测:使用-mr 20获得更高准确性
  • 使用-r标志对最终结构进行AMBER松弛
  • 在Python中使用plot=True可视化结果
  • 在运行AlphaFold预测前先检查PDB数据库

错误处理

  • 数据库结构变化;定期更新gget:pip install --upgrade gget
  • 使用gget info一次处理最多约1000个Ensembl ID
  • 对于大规模分析,为API查询实施速率限制
  • 使用虚拟环境避免依赖冲突

输出格式

命令行

  • 默认: JSON
  • CSV: 添加-csv标志
  • FASTA: gget seq, gget mutate
  • PDB: gget pdb, gget alphafold
  • PNG: gget cbio plot

Python

  • 默认: DataFrame或字典
  • JSON: 添加json=True参数
  • 保存到文件: 添加save=True或指定out="filename"
  • AnnData: gget cellxgene

资源

此技能包括详细模块信息的参考文档:

references/

  • module_reference.md - 所有模块的全面参数参考
  • database_info.md - 关于查询数据库及其更新频率的信息
  • workflows.md - 扩展工作流程示例和用例

额外帮助: