ClinVar数据库查询技能Skill clinvar-database

该技能用于查询和分析NCBI ClinVar数据库中的遗传变异临床意义,支持通过基因/位置搜索、解释致病性分类、访问E-utilities API或FTP下载数据、注释VCF文件,应用于基因组医学和临床研究。关键词:ClinVar、遗传变异、临床意义、数据库查询、API、FTP、VCF、基因组医学、生物信息学。

分子诊断 0 次安装 0 次浏览 更新于 3/16/2026

name: clinvar-database 描述: “查询NCBI ClinVar数据库中的变异临床意义。通过基因/位置搜索,解释致病性分类,通过E-utilities API或FTP访问,注释VCF文件,用于基因组医学。”

ClinVar数据库

概述

ClinVar是NCBI的免费可访问存档,收集人类遗传变异与表型之间关系的报告,并提供支持证据。该数据库汇总了基因组变异及其与人类健康关系的信息,提供用于临床遗传学和研究的标准化变异分类。

何时使用此技能

此技能应在以下情况下使用:

  • 通过基因、条件或临床意义搜索变异
  • 解释临床意义分类(致病性、良性、意义未明)
  • 通过E-utilities API以编程方式访问ClinVar数据
  • 从FTP下载和处理批量数据
  • 理解审查状态和星级评级
  • 解决冲突的变异解释
  • 用临床意义注释变异调用集

核心能力

1. 搜索和查询ClinVar

Web界面查询

https://www.ncbi.nlm.nih.gov/clinvar/使用Web界面搜索ClinVar。

常见搜索模式:

  • 按基因:BRCA1[gene]
  • 按临床意义:pathogenic[CLNSIG]
  • 按条件:breast cancer[disorder]
  • 按变异:NM_000059.3:c.1310_1313del[variant name]
  • 按染色体:13[chr]
  • 组合:BRCA1[gene] AND pathogenic[CLNSIG]

通过E-utilities的编程访问

使用NCBI的E-utilities API以编程方式访问ClinVar。参考references/api_reference.md获取全面的API文档,包括:

  • esearch - 搜索匹配条件的变异
  • esummary - 检索变异摘要
  • efetch - 下载完整XML记录
  • elink - 在其他NCBI数据库中查找相关记录

使用curl的快速示例:

# 搜索致病性BRCA1变异
curl "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=clinvar&term=BRCA1[gene]+AND+pathogenic[CLNSIG]&retmode=json"

最佳实践:

  • 在自动化前在Web界面上测试查询
  • 使用API密钥将速率限制从3次/秒增加到10次/秒
  • 实施指数退避以处理速率限制错误
  • 使用Biopython时设置Entrez.email

2. 解释临床意义

理解分类

ClinVar使用标准化术语进行变异分类。参考references/clinical_significance.md获取详细的解释指南。

关键种系分类术语(ACMG/AMP):

  • 致病性 (P) - 变异导致疾病(约99%概率)
  • 可能致病性 (LP) - 变异很可能导致疾病(约90%概率)
  • 意义未明 (VUS) - 证据不足以分类
  • 可能良性 (LB) - 变异很可能不导致疾病
  • 良性 (B) - 变异不导致疾病

审查状态(星级评级):

  • ★★★★ 实践指南 - 最高置信度
  • ★★★ 专家小组审查(如ClinGen) - 高置信度
  • ★★ 多个提交者,无冲突 - 中等置信度
  • ★ 单一提交者带标准 - 标准权重
  • ☆ 无断言标准 - 低置信度

关键考虑:

  • 始终检查审查状态 - 优先★★★或★★★★评级
  • 冲突解释需要手动评估
  • 随着新证据出现,分类可能变化
  • VUS(意义未明)变异缺乏足够的临床使用证据

3. 从FTP下载批量数据

访问ClinVar FTP站点

ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/下载完整数据集。 参考references/data_formats.md获取文件格式和处理的全面文档。

更新计划:

  • 月度发布:每月第一个星期四(完整数据集,存档)
  • 每周更新:每个星期一(增量更新)

可用格式

XML文件(最全面):

  • VCV(变异)文件:xml/clinvar_variation/ - 以变异为中心的聚合
  • RCV(记录)文件:xml/RCV/ - 变异-条件对
  • 包含完整提交细节、证据和元数据

VCF文件(用于基因组管道):

  • GRCh37:vcf_GRCh37/clinvar.vcf.gz
  • GRCh38:vcf_GRCh38/clinvar.vcf.gz
  • 限制:排除>10kb变异和复杂结构变异

制表符分隔文件(用于快速分析):

  • tab_delimited/variant_summary.txt.gz - 所有变异的摘要
  • tab_delimited/var_citations.txt.gz - PubMed引用
  • tab_delimited/cross_references.txt.gz - 数据库交叉引用

示例下载:

# 下载最新月度XML发布
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/clinvar_variation/ClinVarVariationRelease_00-latest.xml.gz

# 下载GRCh38的VCF
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh38/clinvar.vcf.gz

4. 处理和分析ClinVar数据

使用XML文件

处理XML文件以提取变异细节、分类和证据。

使用xml.etree的Python示例:

import gzip
import xml.etree.ElementTree as ET

with gzip.open('ClinVarVariationRelease.xml.gz', 'rt') as f:
    for event, elem in ET.iterparse(f, events=('end',)):
        if elem.tag == 'VariationArchive':
            variation_id = elem.attrib.get('VariationID')
            # 提取临床意义、审查状态等
            elem.clear()  # 释放内存

使用VCF文件

使用bcftools或Python注释变异调用或按临床意义过滤。

使用bcftools:

# 过滤致病性变异
bcftools view -i 'INFO/CLNSIG~"Pathogenic"' clinvar.vcf.gz

# 提取特定基因
bcftools view -i 'INFO/GENEINFO~"BRCA"' clinvar.vcf.gz

# 用ClinVar注释您的VCF
bcftools annotate -a clinvar.vcf.gz -c INFO your_variants.vcf

在Python中使用PyVCF:

import vcf

vcf_reader = vcf.Reader(filename='clinvar.vcf.gz')
for record in vcf_reader:
    clnsig = record.INFO.get('CLNSIG', [])
    if 'Pathogenic' in clnsig:
        gene = record.INFO.get('GENEINFO', [''])[0]
        print(f"{record.CHROM}:{record.POS} {gene} - {clnsig}")

使用制表符分隔文件

使用pandas或命令行工具进行快速过滤和分析。

使用pandas:

import pandas as pd

# 加载变异摘要
df = pd.read_csv('variant_summary.txt.gz', sep='\t', compression='gzip')

# 过滤特定基因中的致病性变异
pathogenic_brca = df[
    (df['GeneSymbol'] == 'BRCA1') &
    (df['ClinicalSignificance'].str.contains('Pathogenic', na=False))
]

# 按临床意义计数变异
sig_counts = df['ClinicalSignificance'].value_counts()

使用命令行工具:

# 提取特定基因的致病性变异
zcat variant_summary.txt.gz | \
  awk -F'\t' '$7=="TP53" && $13~"Pathogenic"' | \
  cut -f1,5,7,13,14

5. 处理冲突解释

当多个提交者对同一变异提供不同分类时,ClinVar报告“致病性的冲突解释”。

解决策略:

  1. 检查审查状态(星级评级) - 更高评级权重更大
  2. 检查每个提交者的证据和断言标准
  3. 考虑提交日期 - 较新提交可能反映更新证据
  4. 查看群体频率数据(如gnomAD)获取上下文
  5. 咨询专家小组分类(★★★)当可用时
  6. 用于临床使用时,始终咨询遗传学专业人士

排除冲突的搜索查询:

TP53[gene] AND pathogenic[CLNSIG] NOT conflicting[RVSTAT]

6. 跟踪分类更新

随着新证据出现,变异分类可能随时间变化。

分类变化的原因:

  • 新的功能研究或临床数据
  • 更新的人口频率信息
  • 修订的ACMG/AMP指南
  • 来自其他家庭的分离数据

最佳实践:

  • 为可重复性记录ClinVar版本和访问日期
  • 定期重新检查关键变异的分类
  • 订阅ClinVar邮件列表获取重大更新
  • 使用月度存档发布获取稳定数据集

7. 向ClinVar提交数据

组织可以向ClinVar提交变异解释。

提交方法:

要求:

  • 与NCBI的组织账户
  • 断言标准(最好ACMG/AMP指南)
  • 分类的支持证据

联系方式:clinvar@ncbi.nlm.nih.gov用于提交账户设置。

工作流示例

示例1:识别基因中的高置信度致病性变异

目标: 查找CFTR基因中经过专家小组审查的致病性变异。

步骤:

  1. 使用Web界面或E-utilities搜索:
    CFTR[gene] AND pathogenic[CLNSIG] AND (reviewed by expert panel[RVSTAT] OR practice guideline[RVSTAT])
    
  2. 审查结果,注意审查状态(应为★★★或★★★★)
  3. 通过efetch导出变异列表或检索完整记录
  4. 如果适用,与临床表现交叉引用

示例2:用ClinVar分类注释VCF

目标: 为变异调用添加临床意义注释。

步骤:

  1. 下载适当的ClinVar VCF(匹配基因组构建:GRCh37或GRCh38):
    wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh38/clinvar.vcf.gz
    wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh38/clinvar.vcf.gz.tbi
    
  2. 使用bcftools注释:
    bcftools annotate -a clinvar.vcf.gz \
      -c INFO/CLNSIG,INFO/CLNDN,INFO/CLNREVSTAT \
      -o annotated_variants.vcf \
      your_variants.vcf
    
  3. 过滤注释后的VCF以查找致病性变异:
    bcftools view -i 'INFO/CLNSIG~"Pathogenic"' annotated_variants.vcf
    

示例3:分析特定疾病的变异

目标: 研究所有与遗传性乳腺癌相关的变异。

步骤:

  1. 按条件搜索:
    hereditary breast cancer[disorder] OR "Breast-ovarian cancer, familial"[disorder]
    
  2. 将结果下载为CSV或通过E-utilities检索
  3. 按审查状态过滤以优先高置信度变异
  4. 分析跨基因分布(BRCA1、BRCA2、PALB2等)
  5. 单独检查有冲突解释的变异

示例4:批量下载和数据库构建

目标: 为分析管道构建本地ClinVar数据库。

步骤:

  1. 为可重复性下载月度发布:
    wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/clinvar_variation/ClinVarVariationRelease_YYYY-MM.xml.gz
    
  2. 解析XML并加载到数据库(PostgreSQL、MySQL、MongoDB)
  3. 按基因、位置、临床意义、审查状态索引
  4. 实现更新版本跟踪
  5. 从FTP站点安排月度更新

重要限制和考虑

数据质量

  • 并非所有提交具有相同权重 - 检查审查状态(星级评级)
  • 存在冲突解释 - 需要手动评估
  • 历史提交可能过时 - 新数据可能更准确
  • VUS分类不是临床诊断 - 意味着证据不足

范围限制

  • 不用于直接临床诊断 - 始终涉及遗传学专业人士
  • 群体特定 - 变异频率因血统而异
  • 不完整覆盖 - 并非所有基因或变异都得到充分研究
  • 版本依赖 - 跨分析协调基因组构建(GRCh37/GRCh38)

技术限制

  • VCF文件排除大变异 - >10kb变异不在VCF格式中
  • API上的速率限制 - 无密钥时3次/秒,有API密钥时10次/秒
  • 文件大小 - 完整XML发布是数GB压缩文件
  • 无实时更新 - 网站每周更新,FTP每月/每周更新

资源

参考文档

此技能包括全面的参考文档:

  • references/api_reference.md - 完整的E-utilities API文档,包含esearch、esummary、efetch和elink的示例;包括速率限制、认证和Python/Biopython代码示例
  • references/clinical_significance.md - 解释临床意义分类、审查状态星级评级、冲突解决和变异解释最佳实践的详细指南
  • references/data_formats.md - XML、VCF和制表符分隔文件格式的文档;FTP目录结构、处理示例和格式选择指南

外部资源

联系方式

关于ClinVar或数据提交的问题:clinvar@ncbi.nlm.nih.gov