癌症突变数据库Skill cosmic-database

这个技能用于访问和下载COSMIC(癌症体细胞突变目录)数据库,提供癌症基因突变、癌症基因普查、突变签名、基因融合等数据,支持癌症研究、精准医疗和生物信息学分析。关键词:癌症突变、基因数据库、生物信息学、数据分析、精准医疗、癌症研究。

分子诊断 0 次安装 0 次浏览 更新于 3/16/2026

name: 癌症突变数据库 description: “访问COSMIC癌症突变数据库。查询体细胞突变、癌症基因普查、突变签名、基因融合,用于癌症研究和精准医疗。需要认证。”

COSMIC 数据库

概述

COSMIC(癌症体细胞突变目录)是世界上最大和最全面的用于探索人类癌症体细胞突变的数据库。通过编程方式访问COSMIC的广泛癌症基因组数据收集,包括数百万个突变、数千种癌症类型、策划的基因列表、突变签名和临床注释。

何时使用此技能

此技能应在以下情况下使用:

  • 下载癌症突变数据从COSMIC
  • 访问癌症基因普查以获取策划的癌症基因列表
  • 检索突变签名配置文件
  • 查询结构变异、拷贝数改变或基因融合
  • 分析药物抗性突变
  • 处理癌症细胞系基因组数据
  • 将癌症突变数据集成到生物信息学管道中
  • 在癌症背景下研究特定基因或突变

先决条件

账户注册

COSMIC需要认证以进行数据下载:

Python 要求

pip install requests pandas

快速开始

1. 基本文件下载

使用 scripts/download_cosmic.py 脚本下载 COSMIC 数据文件:

from scripts.download_cosmic import download_cosmic_file

# 下载突变数据
download_cosmic_file(
    email="your_email@institution.edu",
    password="your_password",
    filepath="GRCh38/cosmic/latest/CosmicMutantExport.tsv.gz",
    output_filename="cosmic_mutations.tsv.gz"
)

2. 命令行使用

# 使用简写数据类型下载
python scripts/download_cosmic.py user@email.com --data-type mutations

# 下载特定文件
python scripts/download_cosmic.py user@email.com \
    --filepath GRCh38/cosmic/latest/cancer_gene_census.csv

# 为特定基因组组装下载
python scripts/download_cosmic.py user@email.com \
    --data-type gene_census --assembly GRCh37 -o cancer_genes.csv

3. 处理下载的数据

import pandas as pd

# 读取突变数据
mutations = pd.read_csv('cosmic_mutations.tsv.gz', sep='\t', compression='gzip')

# 读取癌症基因普查
gene_census = pd.read_csv('cancer_gene_census.csv')

# 读取 VCF 格式
import pysam
vcf = pysam.VariantFile('CosmicCodingMuts.vcf.gz')

可用数据类型

核心突变

下载全面的突变数据,包括点突变、插入缺失和基因组注释。

常见数据类型

  • mutations - 完整编码突变(TSV 格式)
  • mutations_vcf - VCF 格式的编码突变
  • sample_info - 样本元数据和肿瘤信息
# 下载所有编码突变
download_cosmic_file(
    email="user@email.com",
    password="password",
    filepath="GRCh38/cosmic/latest/CosmicMutantExport.tsv.gz"
)

癌症基因普查

访问专家策划的约 700+ 个与癌症相关证据充分的基因列表。

# 下载癌症基因普查
download_cosmic_file(
    email="user@email.com",
    password="password",
    filepath="GRCh38/cosmic/latest/cancer_gene_census.csv"
)

使用案例

  • 识别已知癌症基因
  • 按癌症相关性过滤变异
  • 理解基因角色(癌基因 vs 肿瘤抑制基因)
  • 研究目标基因选择

突变签名

下载用于突变签名分析的签名配置文件。

# 下载签名定义
download_cosmic_file(
    email="user@email.com",
    password="password",
    filepath="signatures/signatures.tsv"
)

签名类型

  • 单碱基替换(SBS)签名
  • 双碱基替换(DBS)签名
  • 插入/缺失(ID)签名

结构变异和融合

访问基因融合数据和结构重排。

可用数据类型

  • structural_variants - 结构断点
  • fusion_genes - 基因融合事件
# 下载基因融合
download_cosmic_file(
    email="user@email.com",
    password="password",
    filepath="GRCh38/cosmic/latest/CosmicFusionExport.tsv.gz"
)

拷贝数和表达

检索拷贝数改变和基因表达数据。

可用数据类型

  • copy_number - 拷贝数增益/损失
  • gene_expression - 过度/低表达数据
# 下载拷贝数数据
download_cosmic_file(
    email="user@email.com",
    password="password",
    filepath="GRCh38/cosmic/latest/CosmicCompleteCNA.tsv.gz"
)

抗性突变

访问带有临床注释的药物抗性突变数据。

# 下载抗性突变
download_cosmic_file(
    email="user@email.com",
    password="password",
    filepath="GRCh38/cosmic/latest/CosmicResistanceMutations.tsv.gz"
)

使用 COSMIC 数据

基因组组装

COSMIC 为两个参考基因组提供数据:

  • GRCh38(推荐,当前标准)
  • GRCh37(旧版,用于旧管道)

在文件路径中指定组装:

# GRCh38(推荐)
filepath="GRCh38/cosmic/latest/CosmicMutantExport.tsv.gz"

# GRCh37(旧版)
filepath="GRCh37/cosmic/latest/CosmicMutantExport.tsv.gz"

版本控制

  • 在文件路径中使用 latest 以始终获取最新版本
  • COSMIC 每季度更新(当前版本:v102,2025年5月)
  • 可使用特定版本以保证可重现性:v102v101

文件格式

  • TSV/CSV:制表符/逗号分隔,gzip 压缩,使用 pandas 读取
  • VCF:标准变异格式,使用 pysam、bcftools 或 GATK
  • 所有文件包括描述列内容的标题

常见分析模式

按基因过滤突变

import pandas as pd

mutations = pd.read_csv('cosmic_mutations.tsv.gz', sep='\t', compression='gzip')
tp53_mutations = mutations[mutations['Gene name'] == 'TP53']

按角色识别癌症基因

gene_census = pd.read_csv('cancer_gene_census.csv')
oncogenes = gene_census[gene_census['Role in Cancer'].str.contains('oncogene', na=False)]
tumor_suppressors = gene_census[gene_census['Role in Cancer'].str.contains('TSG', na=False)]

按癌症类型提取突变

mutations = pd.read_csv('cosmic_mutations.tsv.gz', sep='\t', compression='gzip')
lung_mutations = mutations[mutations['Primary site'] == 'lung']

使用 VCF 文件

import pysam

vcf = pysam.VariantFile('CosmicCodingMuts.vcf.gz')
for record in vcf.fetch('17', 7577000, 7579000):  # TP53 区域
    print(record.id, record.ref, record.alts, record.info)

数据参考

有关 COSMIC 数据结构、可用文件和字段描述的全面信息,请参见 references/cosmic_data_reference.md。此参考包括:

  • 可用数据类型和文件的完整列表
  • 每种文件类型的详细字段描述
  • 文件格式规范
  • 常见文件路径和命名约定
  • 数据更新计划和版本控制
  • 引用信息

在以下情况下使用此参考:

  • 探索 COSMIC 中可用的数据
  • 理解特定字段含义
  • 确定数据类型的正确文件路径
  • 规划使用 COSMIC 数据的分析工作流

辅助函数

下载脚本包括用于常见操作的辅助函数:

获取常见文件路径

from scripts.download_cosmic import get_common_file_path

# 获取突变文件的路径
path = get_common_file_path('mutations', genome_assembly='GRCh38')
# 返回: 'GRCh38/cosmic/latest/CosmicMutantExport.tsv.gz'

# 获取基因普查的路径
path = get_common_file_path('gene_census')
# 返回: 'GRCh38/cosmic/latest/cancer_gene_census.csv'

可用快捷方式

  • mutations - 核心编码突变
  • mutations_vcf - VCF 格式突变
  • gene_census - 癌症基因普查
  • resistance_mutations - 药物抗性数据
  • structural_variants - 结构变异
  • gene_expression - 表达数据
  • copy_number - 拷贝数改变
  • fusion_genes - 基因融合
  • signatures - 突变签名
  • sample_info - 样本元数据

故障排除

认证错误

  • 验证电子邮件和密码是否正确
  • 确保在 cancer.sanger.ac.uk/cosmic 注册账户
  • 检查使用案例是否需要商业许可证

文件未找到

  • 验证文件路径是否正确
  • 检查请求的版本是否存在
  • 使用 latest 获取最新版本
  • 确认基因组组装(GRCh37 vs GRCh38)正确

大文件下载

  • COSMIC 文件可能数 GB 大小
  • 确保足够的磁盘空间
  • 下载可能需要几分钟,取决于连接速度
  • 脚本显示大文件的下载进度

商业使用

与其他工具集成

COSMIC 数据良好集成于:

  • 变异注释:VEP、ANNOVAR、SnpEff
  • 签名分析:SigProfiler、deconstructSigs、MuSiCa
  • 癌症基因组学:cBioPortal、OncoKB、CIViC
  • 生物信息学:Bioconductor、TCGA 分析工具
  • 数据科学:pandas、scikit-learn、PyTorch

额外资源

引用

使用 COSMIC 数据时,请引用: Tate JG, Bamford S, Jubb HC, et al. COSMIC: the Catalogue Of Somatic Mutations In Cancer. Nucleic Acids Research. 2019;47(D1):D941-D947.