name: clinvar-database 描述: “查询NCBI ClinVar数据库中的变异临床意义。通过基因/位置搜索,解释致病性分类,通过E-utilities API或FTP访问,注释VCF文件,用于基因组医学。”
ClinVar数据库
概述
ClinVar是NCBI的免费可访问存档,收集人类遗传变异与表型之间关系的报告,并提供支持证据。该数据库汇总了基因组变异及其与人类健康关系的信息,提供用于临床遗传学和研究的标准化变异分类。
何时使用此技能
此技能应在以下情况下使用:
- 通过基因、条件或临床意义搜索变异
- 解释临床意义分类(致病性、良性、意义未明)
- 通过E-utilities API以编程方式访问ClinVar数据
- 从FTP下载和处理批量数据
- 理解审查状态和星级评级
- 解决冲突的变异解释
- 用临床意义注释变异调用集
核心能力
1. 搜索和查询ClinVar
Web界面查询
在https://www.ncbi.nlm.nih.gov/clinvar/使用Web界面搜索ClinVar。
常见搜索模式:
- 按基因:
BRCA1[gene] - 按临床意义:
pathogenic[CLNSIG] - 按条件:
breast cancer[disorder] - 按变异:
NM_000059.3:c.1310_1313del[variant name] - 按染色体:
13[chr] - 组合:
BRCA1[gene] AND pathogenic[CLNSIG]
通过E-utilities的编程访问
使用NCBI的E-utilities API以编程方式访问ClinVar。参考references/api_reference.md获取全面的API文档,包括:
- esearch - 搜索匹配条件的变异
- esummary - 检索变异摘要
- efetch - 下载完整XML记录
- elink - 在其他NCBI数据库中查找相关记录
使用curl的快速示例:
# 搜索致病性BRCA1变异
curl "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=clinvar&term=BRCA1[gene]+AND+pathogenic[CLNSIG]&retmode=json"
最佳实践:
- 在自动化前在Web界面上测试查询
- 使用API密钥将速率限制从3次/秒增加到10次/秒
- 实施指数退避以处理速率限制错误
- 使用Biopython时设置
Entrez.email
2. 解释临床意义
理解分类
ClinVar使用标准化术语进行变异分类。参考references/clinical_significance.md获取详细的解释指南。
关键种系分类术语(ACMG/AMP):
- 致病性 (P) - 变异导致疾病(约99%概率)
- 可能致病性 (LP) - 变异很可能导致疾病(约90%概率)
- 意义未明 (VUS) - 证据不足以分类
- 可能良性 (LB) - 变异很可能不导致疾病
- 良性 (B) - 变异不导致疾病
审查状态(星级评级):
- ★★★★ 实践指南 - 最高置信度
- ★★★ 专家小组审查(如ClinGen) - 高置信度
- ★★ 多个提交者,无冲突 - 中等置信度
- ★ 单一提交者带标准 - 标准权重
- ☆ 无断言标准 - 低置信度
关键考虑:
- 始终检查审查状态 - 优先★★★或★★★★评级
- 冲突解释需要手动评估
- 随着新证据出现,分类可能变化
- VUS(意义未明)变异缺乏足够的临床使用证据
3. 从FTP下载批量数据
访问ClinVar FTP站点
从ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/下载完整数据集。
参考references/data_formats.md获取文件格式和处理的全面文档。
更新计划:
- 月度发布:每月第一个星期四(完整数据集,存档)
- 每周更新:每个星期一(增量更新)
可用格式
XML文件(最全面):
- VCV(变异)文件:
xml/clinvar_variation/- 以变异为中心的聚合 - RCV(记录)文件:
xml/RCV/- 变异-条件对 - 包含完整提交细节、证据和元数据
VCF文件(用于基因组管道):
- GRCh37:
vcf_GRCh37/clinvar.vcf.gz - GRCh38:
vcf_GRCh38/clinvar.vcf.gz - 限制:排除>10kb变异和复杂结构变异
制表符分隔文件(用于快速分析):
tab_delimited/variant_summary.txt.gz- 所有变异的摘要tab_delimited/var_citations.txt.gz- PubMed引用tab_delimited/cross_references.txt.gz- 数据库交叉引用
示例下载:
# 下载最新月度XML发布
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/clinvar_variation/ClinVarVariationRelease_00-latest.xml.gz
# 下载GRCh38的VCF
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh38/clinvar.vcf.gz
4. 处理和分析ClinVar数据
使用XML文件
处理XML文件以提取变异细节、分类和证据。
使用xml.etree的Python示例:
import gzip
import xml.etree.ElementTree as ET
with gzip.open('ClinVarVariationRelease.xml.gz', 'rt') as f:
for event, elem in ET.iterparse(f, events=('end',)):
if elem.tag == 'VariationArchive':
variation_id = elem.attrib.get('VariationID')
# 提取临床意义、审查状态等
elem.clear() # 释放内存
使用VCF文件
使用bcftools或Python注释变异调用或按临床意义过滤。
使用bcftools:
# 过滤致病性变异
bcftools view -i 'INFO/CLNSIG~"Pathogenic"' clinvar.vcf.gz
# 提取特定基因
bcftools view -i 'INFO/GENEINFO~"BRCA"' clinvar.vcf.gz
# 用ClinVar注释您的VCF
bcftools annotate -a clinvar.vcf.gz -c INFO your_variants.vcf
在Python中使用PyVCF:
import vcf
vcf_reader = vcf.Reader(filename='clinvar.vcf.gz')
for record in vcf_reader:
clnsig = record.INFO.get('CLNSIG', [])
if 'Pathogenic' in clnsig:
gene = record.INFO.get('GENEINFO', [''])[0]
print(f"{record.CHROM}:{record.POS} {gene} - {clnsig}")
使用制表符分隔文件
使用pandas或命令行工具进行快速过滤和分析。
使用pandas:
import pandas as pd
# 加载变异摘要
df = pd.read_csv('variant_summary.txt.gz', sep='\t', compression='gzip')
# 过滤特定基因中的致病性变异
pathogenic_brca = df[
(df['GeneSymbol'] == 'BRCA1') &
(df['ClinicalSignificance'].str.contains('Pathogenic', na=False))
]
# 按临床意义计数变异
sig_counts = df['ClinicalSignificance'].value_counts()
使用命令行工具:
# 提取特定基因的致病性变异
zcat variant_summary.txt.gz | \
awk -F'\t' '$7=="TP53" && $13~"Pathogenic"' | \
cut -f1,5,7,13,14
5. 处理冲突解释
当多个提交者对同一变异提供不同分类时,ClinVar报告“致病性的冲突解释”。
解决策略:
- 检查审查状态(星级评级) - 更高评级权重更大
- 检查每个提交者的证据和断言标准
- 考虑提交日期 - 较新提交可能反映更新证据
- 查看群体频率数据(如gnomAD)获取上下文
- 咨询专家小组分类(★★★)当可用时
- 用于临床使用时,始终咨询遗传学专业人士
排除冲突的搜索查询:
TP53[gene] AND pathogenic[CLNSIG] NOT conflicting[RVSTAT]
6. 跟踪分类更新
随着新证据出现,变异分类可能随时间变化。
分类变化的原因:
- 新的功能研究或临床数据
- 更新的人口频率信息
- 修订的ACMG/AMP指南
- 来自其他家庭的分离数据
最佳实践:
- 为可重复性记录ClinVar版本和访问日期
- 定期重新检查关键变异的分类
- 订阅ClinVar邮件列表获取重大更新
- 使用月度存档发布获取稳定数据集
7. 向ClinVar提交数据
组织可以向ClinVar提交变异解释。
提交方法:
- Web提交门户:https://submit.ncbi.nlm.nih.gov/subs/clinvar/
- API提交(需要服务账户):见
references/api_reference.md - 通过Excel模板批量提交
要求:
- 与NCBI的组织账户
- 断言标准(最好ACMG/AMP指南)
- 分类的支持证据
联系方式:clinvar@ncbi.nlm.nih.gov用于提交账户设置。
工作流示例
示例1:识别基因中的高置信度致病性变异
目标: 查找CFTR基因中经过专家小组审查的致病性变异。
步骤:
- 使用Web界面或E-utilities搜索:
CFTR[gene] AND pathogenic[CLNSIG] AND (reviewed by expert panel[RVSTAT] OR practice guideline[RVSTAT]) - 审查结果,注意审查状态(应为★★★或★★★★)
- 通过efetch导出变异列表或检索完整记录
- 如果适用,与临床表现交叉引用
示例2:用ClinVar分类注释VCF
目标: 为变异调用添加临床意义注释。
步骤:
- 下载适当的ClinVar VCF(匹配基因组构建:GRCh37或GRCh38):
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh38/clinvar.vcf.gz wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh38/clinvar.vcf.gz.tbi - 使用bcftools注释:
bcftools annotate -a clinvar.vcf.gz \ -c INFO/CLNSIG,INFO/CLNDN,INFO/CLNREVSTAT \ -o annotated_variants.vcf \ your_variants.vcf - 过滤注释后的VCF以查找致病性变异:
bcftools view -i 'INFO/CLNSIG~"Pathogenic"' annotated_variants.vcf
示例3:分析特定疾病的变异
目标: 研究所有与遗传性乳腺癌相关的变异。
步骤:
- 按条件搜索:
hereditary breast cancer[disorder] OR "Breast-ovarian cancer, familial"[disorder] - 将结果下载为CSV或通过E-utilities检索
- 按审查状态过滤以优先高置信度变异
- 分析跨基因分布(BRCA1、BRCA2、PALB2等)
- 单独检查有冲突解释的变异
示例4:批量下载和数据库构建
目标: 为分析管道构建本地ClinVar数据库。
步骤:
- 为可重复性下载月度发布:
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/clinvar_variation/ClinVarVariationRelease_YYYY-MM.xml.gz - 解析XML并加载到数据库(PostgreSQL、MySQL、MongoDB)
- 按基因、位置、临床意义、审查状态索引
- 实现更新版本跟踪
- 从FTP站点安排月度更新
重要限制和考虑
数据质量
- 并非所有提交具有相同权重 - 检查审查状态(星级评级)
- 存在冲突解释 - 需要手动评估
- 历史提交可能过时 - 新数据可能更准确
- VUS分类不是临床诊断 - 意味着证据不足
范围限制
- 不用于直接临床诊断 - 始终涉及遗传学专业人士
- 群体特定 - 变异频率因血统而异
- 不完整覆盖 - 并非所有基因或变异都得到充分研究
- 版本依赖 - 跨分析协调基因组构建(GRCh37/GRCh38)
技术限制
- VCF文件排除大变异 - >10kb变异不在VCF格式中
- API上的速率限制 - 无密钥时3次/秒,有API密钥时10次/秒
- 文件大小 - 完整XML发布是数GB压缩文件
- 无实时更新 - 网站每周更新,FTP每月/每周更新
资源
参考文档
此技能包括全面的参考文档:
references/api_reference.md- 完整的E-utilities API文档,包含esearch、esummary、efetch和elink的示例;包括速率限制、认证和Python/Biopython代码示例references/clinical_significance.md- 解释临床意义分类、审查状态星级评级、冲突解决和变异解释最佳实践的详细指南references/data_formats.md- XML、VCF和制表符分隔文件格式的文档;FTP目录结构、处理示例和格式选择指南
外部资源
- ClinVar主页:https://www.ncbi.nlm.nih.gov/clinvar/
- ClinVar文档:https://www.ncbi.nlm.nih.gov/clinvar/docs/
- E-utilities文档:https://www.ncbi.nlm.nih.gov/books/NBK25501/
- ACMG变异解释指南:Richards等人,2015(PMID: 25741868)
- ClinGen专家小组:https://clinicalgenome.org/
联系方式
关于ClinVar或数据提交的问题:clinvar@ncbi.nlm.nih.gov