name: 癌症突变数据库 description: “访问COSMIC癌症突变数据库。查询体细胞突变、癌症基因普查、突变签名、基因融合,用于癌症研究和精准医疗。需要认证。”
COSMIC 数据库
概述
COSMIC(癌症体细胞突变目录)是世界上最大和最全面的用于探索人类癌症体细胞突变的数据库。通过编程方式访问COSMIC的广泛癌症基因组数据收集,包括数百万个突变、数千种癌症类型、策划的基因列表、突变签名和临床注释。
何时使用此技能
此技能应在以下情况下使用:
- 下载癌症突变数据从COSMIC
- 访问癌症基因普查以获取策划的癌症基因列表
- 检索突变签名配置文件
- 查询结构变异、拷贝数改变或基因融合
- 分析药物抗性突变
- 处理癌症细胞系基因组数据
- 将癌症突变数据集成到生物信息学管道中
- 在癌症背景下研究特定基因或突变
先决条件
账户注册
COSMIC需要认证以进行数据下载:
- 学术用户:免费访问,在 https://cancer.sanger.ac.uk/cosmic/register 注册
- 商业用户:需要许可证(联系QIAGEN)
Python 要求
pip install requests pandas
快速开始
1. 基本文件下载
使用 scripts/download_cosmic.py 脚本下载 COSMIC 数据文件:
from scripts.download_cosmic import download_cosmic_file
# 下载突变数据
download_cosmic_file(
email="your_email@institution.edu",
password="your_password",
filepath="GRCh38/cosmic/latest/CosmicMutantExport.tsv.gz",
output_filename="cosmic_mutations.tsv.gz"
)
2. 命令行使用
# 使用简写数据类型下载
python scripts/download_cosmic.py user@email.com --data-type mutations
# 下载特定文件
python scripts/download_cosmic.py user@email.com \
--filepath GRCh38/cosmic/latest/cancer_gene_census.csv
# 为特定基因组组装下载
python scripts/download_cosmic.py user@email.com \
--data-type gene_census --assembly GRCh37 -o cancer_genes.csv
3. 处理下载的数据
import pandas as pd
# 读取突变数据
mutations = pd.read_csv('cosmic_mutations.tsv.gz', sep='\t', compression='gzip')
# 读取癌症基因普查
gene_census = pd.read_csv('cancer_gene_census.csv')
# 读取 VCF 格式
import pysam
vcf = pysam.VariantFile('CosmicCodingMuts.vcf.gz')
可用数据类型
核心突变
下载全面的突变数据,包括点突变、插入缺失和基因组注释。
常见数据类型:
mutations- 完整编码突变(TSV 格式)mutations_vcf- VCF 格式的编码突变sample_info- 样本元数据和肿瘤信息
# 下载所有编码突变
download_cosmic_file(
email="user@email.com",
password="password",
filepath="GRCh38/cosmic/latest/CosmicMutantExport.tsv.gz"
)
癌症基因普查
访问专家策划的约 700+ 个与癌症相关证据充分的基因列表。
# 下载癌症基因普查
download_cosmic_file(
email="user@email.com",
password="password",
filepath="GRCh38/cosmic/latest/cancer_gene_census.csv"
)
使用案例:
- 识别已知癌症基因
- 按癌症相关性过滤变异
- 理解基因角色(癌基因 vs 肿瘤抑制基因)
- 研究目标基因选择
突变签名
下载用于突变签名分析的签名配置文件。
# 下载签名定义
download_cosmic_file(
email="user@email.com",
password="password",
filepath="signatures/signatures.tsv"
)
签名类型:
- 单碱基替换(SBS)签名
- 双碱基替换(DBS)签名
- 插入/缺失(ID)签名
结构变异和融合
访问基因融合数据和结构重排。
可用数据类型:
structural_variants- 结构断点fusion_genes- 基因融合事件
# 下载基因融合
download_cosmic_file(
email="user@email.com",
password="password",
filepath="GRCh38/cosmic/latest/CosmicFusionExport.tsv.gz"
)
拷贝数和表达
检索拷贝数改变和基因表达数据。
可用数据类型:
copy_number- 拷贝数增益/损失gene_expression- 过度/低表达数据
# 下载拷贝数数据
download_cosmic_file(
email="user@email.com",
password="password",
filepath="GRCh38/cosmic/latest/CosmicCompleteCNA.tsv.gz"
)
抗性突变
访问带有临床注释的药物抗性突变数据。
# 下载抗性突变
download_cosmic_file(
email="user@email.com",
password="password",
filepath="GRCh38/cosmic/latest/CosmicResistanceMutations.tsv.gz"
)
使用 COSMIC 数据
基因组组装
COSMIC 为两个参考基因组提供数据:
- GRCh38(推荐,当前标准)
- GRCh37(旧版,用于旧管道)
在文件路径中指定组装:
# GRCh38(推荐)
filepath="GRCh38/cosmic/latest/CosmicMutantExport.tsv.gz"
# GRCh37(旧版)
filepath="GRCh37/cosmic/latest/CosmicMutantExport.tsv.gz"
版本控制
- 在文件路径中使用
latest以始终获取最新版本 - COSMIC 每季度更新(当前版本:v102,2025年5月)
- 可使用特定版本以保证可重现性:
v102、v101等
文件格式
- TSV/CSV:制表符/逗号分隔,gzip 压缩,使用 pandas 读取
- VCF:标准变异格式,使用 pysam、bcftools 或 GATK
- 所有文件包括描述列内容的标题
常见分析模式
按基因过滤突变:
import pandas as pd
mutations = pd.read_csv('cosmic_mutations.tsv.gz', sep='\t', compression='gzip')
tp53_mutations = mutations[mutations['Gene name'] == 'TP53']
按角色识别癌症基因:
gene_census = pd.read_csv('cancer_gene_census.csv')
oncogenes = gene_census[gene_census['Role in Cancer'].str.contains('oncogene', na=False)]
tumor_suppressors = gene_census[gene_census['Role in Cancer'].str.contains('TSG', na=False)]
按癌症类型提取突变:
mutations = pd.read_csv('cosmic_mutations.tsv.gz', sep='\t', compression='gzip')
lung_mutations = mutations[mutations['Primary site'] == 'lung']
使用 VCF 文件:
import pysam
vcf = pysam.VariantFile('CosmicCodingMuts.vcf.gz')
for record in vcf.fetch('17', 7577000, 7579000): # TP53 区域
print(record.id, record.ref, record.alts, record.info)
数据参考
有关 COSMIC 数据结构、可用文件和字段描述的全面信息,请参见 references/cosmic_data_reference.md。此参考包括:
- 可用数据类型和文件的完整列表
- 每种文件类型的详细字段描述
- 文件格式规范
- 常见文件路径和命名约定
- 数据更新计划和版本控制
- 引用信息
在以下情况下使用此参考:
- 探索 COSMIC 中可用的数据
- 理解特定字段含义
- 确定数据类型的正确文件路径
- 规划使用 COSMIC 数据的分析工作流
辅助函数
下载脚本包括用于常见操作的辅助函数:
获取常见文件路径
from scripts.download_cosmic import get_common_file_path
# 获取突变文件的路径
path = get_common_file_path('mutations', genome_assembly='GRCh38')
# 返回: 'GRCh38/cosmic/latest/CosmicMutantExport.tsv.gz'
# 获取基因普查的路径
path = get_common_file_path('gene_census')
# 返回: 'GRCh38/cosmic/latest/cancer_gene_census.csv'
可用快捷方式:
mutations- 核心编码突变mutations_vcf- VCF 格式突变gene_census- 癌症基因普查resistance_mutations- 药物抗性数据structural_variants- 结构变异gene_expression- 表达数据copy_number- 拷贝数改变fusion_genes- 基因融合signatures- 突变签名sample_info- 样本元数据
故障排除
认证错误
- 验证电子邮件和密码是否正确
- 确保在 cancer.sanger.ac.uk/cosmic 注册账户
- 检查使用案例是否需要商业许可证
文件未找到
- 验证文件路径是否正确
- 检查请求的版本是否存在
- 使用
latest获取最新版本 - 确认基因组组装(GRCh37 vs GRCh38)正确
大文件下载
- COSMIC 文件可能数 GB 大小
- 确保足够的磁盘空间
- 下载可能需要几分钟,取决于连接速度
- 脚本显示大文件的下载进度
商业使用
- 商业用户必须通过 QIAGEN 许可 COSMIC
- 联系: cosmic-translation@sanger.ac.uk
- 学术访问免费但需要注册
与其他工具集成
COSMIC 数据良好集成于:
- 变异注释:VEP、ANNOVAR、SnpEff
- 签名分析:SigProfiler、deconstructSigs、MuSiCa
- 癌症基因组学:cBioPortal、OncoKB、CIViC
- 生物信息学:Bioconductor、TCGA 分析工具
- 数据科学:pandas、scikit-learn、PyTorch
额外资源
- COSMIC 网站:https://cancer.sanger.ac.uk/cosmic
- 文档:https://cancer.sanger.ac.uk/cosmic/help
- 发布说明:https://cancer.sanger.ac.uk/cosmic/release_notes
- 联系:cosmic@sanger.ac.uk
引用
使用 COSMIC 数据时,请引用: Tate JG, Bamford S, Jubb HC, et al. COSMIC: the Catalogue Of Somatic Mutations In Cancer. Nucleic Acids Research. 2019;47(D1):D941-D947.