name: COSMIC数据库 description: “访问COSMIC癌症突变数据库。查询体细胞突变、癌症基因普查、突变特征、基因融合,用于癌症研究和精准肿瘤学。需要认证。”
COSMIC数据库
概述
COSMIC(癌症体细胞突变目录)是世界上最大、最全面的数据库,用于探索人类癌症中的体细胞突变。以编程方式访问COSMIC广泛的癌症基因组数据,包括数千种癌症类型中的数百万个突变、策展的基因列表、突变特征和临床注释。
何时使用此技能
此技能应在以下情况使用:
- 从COSMIC下载癌症突变数据
- 访问癌症基因普查以获取策展的癌症基因列表
- 检索突变特征配置文件
- 查询结构变异、拷贝数改变或基因融合
- 分析药物抗性突变
- 处理癌细胞系基因组数据
- 将癌症突变数据集成到生物信息学流程中
- 研究癌症背景下的特定基因或突变
前提条件
账户注册
COSMIC需要认证才能下载数据:
- 学术用户:免费访问,需在 https://cancer.sanger.ac.uk/cosmic/register 注册
- 商业用户:需要许可证(联系QIAGEN)
Python要求
uv pip install requests pandas
快速开始
1. 基本文件下载
使用 scripts/download_cosmic.py 脚本下载COSMIC数据文件:
from scripts.download_cosmic import download_cosmic_file
# 下载突变数据
download_cosmic_file(
email="your_email@institution.edu",
password="your_password",
filepath="GRCh38/cosmic/latest/CosmicMutantExport.tsv.gz",
output_filename="cosmic_mutations.tsv.gz"
)
2. 命令行用法
# 使用简写数据类型下载
python scripts/download_cosmic.py user@email.com --data-type mutations
# 下载特定文件
python scripts/download_cosmic.py user@email.com \
--filepath GRCh38/cosmic/latest/cancer_gene_census.csv
# 为特定基因组组装下载
python scripts/download_cosmic.py user@email.com \
--data-type gene_census --assembly GRCh37 -o cancer_genes.csv
3. 处理下载的数据
import pandas as pd
# 读取突变数据
mutations = pd.read_csv('cosmic_mutations.tsv.gz', sep='\t', compression='gzip')
# 读取癌症基因普查
gene_census = pd.read_csv('cancer_gene_census.csv')
# 读取VCF格式
import pysam
vcf = pysam.VariantFile('CosmicCodingMuts.vcf.gz')
可用数据类型
核心突变
下载全面的突变数据,包括点突变、插入缺失和基因组注释。
常见数据类型:
mutations- 完整的编码突变(TSV格式)mutations_vcf- VCF格式的编码突变sample_info- 样本元数据和肿瘤信息
# 下载所有编码突变
download_cosmic_file(
email="user@email.com",
password="password",
filepath="GRCh38/cosmic/latest/CosmicMutantExport.tsv.gz"
)
癌症基因普查
访问专家策展的约700多个与癌症显著相关的基因列表。
# 下载癌症基因普查
download_cosmic_file(
email="user@email.com",
password="password",
filepath="GRCh38/cosmic/latest/cancer_gene_census.csv"
)
使用案例:
- 识别已知的癌症基因
- 通过癌症相关性筛选变异
- 理解基因角色(癌基因 vs 肿瘤抑制基因)
- 为研究选择靶基因
突变特征
下载用于突变特征分析的特征配置文件。
# 下载特征定义
download_cosmic_file(
email="user@email.com",
password="password",
filepath="signatures/signatures.tsv"
)
特征类型:
- 单碱基替换(SBS)特征
- 双碱基替换(DBS)特征
- 插入/缺失(ID)特征
结构变异和融合
访问基因融合数据和结构重排。
可用数据类型:
structural_variants- 结构断点fusion_genes- 基因融合事件
# 下载基因融合
download_cosmic_file(
email="user@email.com",
password="password",
filepath="GRCh38/cosmic/latest/CosmicFusionExport.tsv.gz"
)
拷贝数和表达
检索拷贝数改变和基因表达数据。
可用数据类型:
copy_number- 拷贝数增益/损失gene_expression- 过表达/低表达数据
# 下载拷贝数数据
download_cosmic_file(
email="user@email.com",
password="password",
filepath="GRCh38/cosmic/latest/CosmicCompleteCNA.tsv.gz"
)
抗性突变
访问带有临床注释的药物抗性突变数据。
# 下载抗性突变
download_cosmic_file(
email="user@email.com",
password="password",
filepath="GRCh38/cosmic/latest/CosmicResistanceMutations.tsv.gz"
)
处理COSMIC数据
基因组组装
COSMIC提供两个参考基因组的数据:
- GRCh38(推荐,当前标准)
- GRCh37(遗留,用于旧管道)
在文件路径中指定组装:
# GRCh38(推荐)
filepath="GRCh38/cosmic/latest/CosmicMutantExport.tsv.gz"
# GRCh37(遗留)
filepath="GRCh37/cosmic/latest/CosmicMutantExport.tsv.gz"
版本控制
- 在文件路径中使用
latest以始终获取最新版本 - COSMIC每季度更新(当前版本:v102,2025年5月)
- 可使用特定版本以保证可重复性:
v102、v101等
文件格式
- TSV/CSV:制表符/逗号分隔,gzip压缩,使用pandas读取
- VCF:标准变异格式,使用pysam、bcftools或GATK
- 所有文件都包含描述列内容的标题
常见分析模式
按基因筛选突变:
import pandas as pd
mutations = pd.read_csv('cosmic_mutations.tsv.gz', sep='\t', compression='gzip')
tp53_mutations = mutations[mutations['Gene name'] == 'TP53']
按角色识别癌症基因:
gene_census = pd.read_csv('cancer_gene_census.csv')
oncogenes = gene_census[gene_census['Role in Cancer'].str.contains('oncogene', na=False)]
tumor_suppressors = gene_census[gene_census['Role in Cancer'].str.contains('TSG', na=False)]
按癌症类型提取突变:
mutations = pd.read_csv('cosmic_mutations.tsv.gz', sep='\t', compression='gzip')
lung_mutations = mutations[mutations['Primary site'] == 'lung']
处理VCF文件:
import pysam
vcf = pysam.VariantFile('CosmicCodingMuts.vcf.gz')
for record in vcf.fetch('17', 7577000, 7579000): # TP53区域
print(record.id, record.ref, record.alts, record.info)
数据参考
有关COSMIC数据结构、可用文件和字段描述的全面信息,请参见 references/cosmic_data_reference.md。此参考包括:
- 可用数据类型和文件的完整列表
- 每种文件类型的详细字段描述
- 文件格式规范
- 常见文件路径和命名约定
- 数据更新计划和版本控制
- 引用信息
在以下情况使用此参考:
- 探索COSMIC中可用的数据
- 理解特定字段含义
- 确定数据类型的正确文件路径
- 规划使用COSMIC数据的分析工作流程
辅助函数
下载脚本包含用于常见操作的辅助函数:
获取常见文件路径
from scripts.download_cosmic import get_common_file_path
# 获取突变文件的路径
path = get_common_file_path('mutations', genome_assembly='GRCh38')
# 返回:'GRCh38/cosmic/latest/CosmicMutantExport.tsv.gz'
# 获取基因普查的路径
path = get_common_file_path('gene_census')
# 返回:'GRCh38/cosmic/latest/cancer_gene_census.csv'
可用快捷方式:
mutations- 核心编码突变mutations_vcf- VCF格式突变gene_census- 癌症基因普查resistance_mutations- 药物抗性数据structural_variants- 结构变异gene_expression- 表达数据copy_number- 拷贝数改变fusion_genes- 基因融合signatures- 突变特征sample_info- 样本元数据
故障排除
认证错误
- 验证邮箱和密码是否正确
- 确保已在 cancer.sanger.ac.uk/cosmic 注册账户
- 检查您的用例是否需要商业许可证
文件未找到
- 验证文件路径是否正确
- 检查请求的版本是否存在
- 使用
latest获取最新版本 - 确认基因组组装(GRCh37 vs GRCh38)正确
大文件下载
- COSMIC文件可能为几GB大小
- 确保足够的磁盘空间
- 下载可能需要几分钟,取决于连接速度
- 脚本会显示大文件的下载进度
商业使用
- 商业用户必须通过QIAGEN许可COSMIC
- 联系:cosmic-translation@sanger.ac.uk
- 学术访问免费但需要注册
与其他工具集成
COSMIC数据可与以下工具良好集成:
- 变异注释:VEP、ANNOVAR、SnpEff
- 特征分析:SigProfiler、deconstructSigs、MuSiCa
- 癌症基因组学:cBioPortal、OncoKB、CIViC
- 生物信息学:Bioconductor、TCGA分析工具
- 数据科学:pandas、scikit-learn、PyTorch
额外资源
- COSMIC网站:https://cancer.sanger.ac.uk/cosmic
- 文档:https://cancer.sanger.ac.uk/cosmic/help
- 发布说明:https://cancer.sanger.ac.uk/cosmic/release_notes
- 联系方式:cosmic@sanger.ac.uk
引用
使用COSMIC数据时,请引用: Tate JG, Bamford S, Jubb HC, et al. COSMIC: the Catalogue Of Somatic Mutations In Cancer. Nucleic Acids Research. 2019;47(D1):D941-D947.