HMDB数据库查询技能Skill hmdb-database

这个技能用于访问和查询人类代谢组数据库(HMDB),支持通过名称、ID、结构等方式搜索代谢物,检索化学性质、生物标志物数据、光谱信息等,适用于代谢组学研究、临床化学、生物标志物发现和代谢物鉴定。关键词:HMDB,代谢组学,代谢物数据库,生物信息学,数据分析,临床化学,生物标志物。

数据分析 0 次安装 0 次浏览 更新于 3/16/2026

名称: hmdb-database 描述: “访问人类代谢组数据库(22万+代谢物)。通过名称/ID/结构搜索,检索化学性质、生物标志物数据、NMR/MS光谱、途径,用于代谢组学和鉴定。”

HMDB 数据库

概述

人类代谢组数据库(HMDB)是一个综合性、免费可用的资源,包含人体中发现的小分子代谢物的详细信息。

何时使用此技能

此技能应用于进行代谢组学研究、临床化学、生物标志物发现或代谢物鉴定任务时。

数据库内容

HMDB 版本 5.0(截至 2025 年)包含:

  • 220,945 个代谢物条目,涵盖水溶性和脂溶性化合物
  • 8,610 个蛋白质序列,用于涉及代谢的酶和转运蛋白
  • 每个代谢物 130+ 个数据字段,包括:
    • 化学性质(结构、分子式、分子量、InChI、SMILES)
    • 临床数据(生物标志物关联、疾病、正常/异常浓度)
    • 生物信息(途径、反应、位置)
    • 光谱数据(NMR、MS、MS-MS 光谱)
    • 外部数据库链接(KEGG、PubChem、MetaCyc、ChEBI、PDB、UniProt、GenBank)

核心能力

1. 基于网络的代谢物搜索

通过网站界面 https://www.hmdb.ca/ 访问 HMDB,用于:

文本搜索:

  • 通过代谢物名称、同义词或标识符(HMDB ID)搜索
  • 示例 HMDB IDs:HMDB0000001、HMDB0001234
  • 通过疾病关联或途径参与搜索
  • 通过生物样本类型(尿液、血清、脑脊液、唾液、粪便、汗液)查询

基于结构的搜索:

  • 使用 ChemQuery 进行结构和子结构搜索
  • 通过分子量或分子量范围搜索
  • 使用 SMILES 或 InChI 字符串查找化合物

光谱搜索:

  • LC-MS 光谱匹配
  • GC-MS 光谱匹配
  • NMR 光谱搜索用于代谢物鉴定

高级搜索:

  • 组合多个标准(名称、性质、浓度范围)
  • 通过生物位置或样本类型过滤
  • 通过蛋白质/酶关联搜索

2. 访问代谢物信息

检索代谢物数据时,HMDB 提供:

化学信息:

  • 系统名称、传统名称和同义词
  • 化学分子式和分子量
  • 结构表示(2D/3D、SMILES、InChI、MOL 文件)
  • 化学分类和分类学

生物背景:

  • 代谢途径和反应
  • 相关酶和转运蛋白
  • 亚细胞位置
  • 生物角色和功能

临床相关性:

  • 生物流体中的正常浓度范围
  • 与疾病的生物标志物关联
  • 临床意义
  • 适用时的毒性信息

分析数据:

  • 实验和预测的 NMR 光谱
  • MS 和 MS-MS 光谱
  • 保留时间和色谱数据
  • 鉴定参考峰

3. 可下载的数据集

HMDB 在 https://www.hmdb.ca/downloads 提供多种格式的批量数据下载:

可用格式:

  • XML:完整的代谢物、蛋白质和光谱数据
  • SDF:用于化学信息学的代谢物结构文件
  • FASTA:蛋白质和基因序列
  • TXT:原始光谱峰列表
  • CSV/TSV:表格数据导出

数据集类别:

  • 所有代谢物或按样本类型过滤
  • 蛋白质/酶序列
  • 实验和预测光谱(NMR、GC-MS、MS-MS)
  • 途径信息

最佳实践:

  • 下载 XML 格式以获取包括所有字段的全面数据
  • 使用 SDF 格式进行基于结构的分析和化学信息学工作流
  • 解析 CSV/TSV 格式以集成到数据分析管道中
  • 检查版本日期以确保数据最新(当前:v5.0,2023-07-01)

使用要求:

  • 免费用于学术和非商业研究
  • 商业使用需要明确许可(联系 samackay@ualberta.ca
  • 使用数据时引用 HMDB 出版物

4. 程序化 API 访问

API 可用性: HMDB 不提供公共 REST API。程序化访问需要联系开发团队:

替代程序化访问:

  • R/Bioconductor:使用 hmdbQuery 包进行 R 基础查询
    • 安装:BiocManager::install("hmdbQuery")
    • 提供基于 HTTP 的查询函数
  • 下载的数据集: 在本地解析 XML 或 CSV 文件进行程序化分析
  • 网络爬虫: 不推荐;请联系团队以获取适当的 API 访问

5. 常见研究工作流

非靶向代谢组学中的代谢物鉴定:

  1. 从样本获取实验性 MS 或 NMR 光谱
  2. 使用 HMDB 光谱搜索工具匹配参考光谱
  3. 通过检查分子量、保留时间和 MS-MS 碎片验证候选物
  4. 审查生物合理性(预期样本类型、已知途径)

生物标志物发现:

  1. 在 HMDB 中搜索与感兴趣疾病相关的代谢物
  2. 审查正常与疾病状态的浓度范围
  3. 识别具有强差异丰度的代谢物
  4. 检查途径背景和生物机制
  5. 通过 PubMed 链接交叉引用文献

途径分析:

  1. 从实验数据识别感兴趣的代谢物
  2. 查找每个代谢物的 HMDB 条目
  3. 提取途径关联和酶促反应
  4. 使用链接的 SMPDB(小分子途径数据库)获取途径图
  5. 识别途径富集用于生物解释

数据库集成:

  1. 以 XML 或 CSV 格式下载 HMDB 数据
  2. 解析并提取本地数据库的相关字段
  3. 与外部 IDs(KEGG、PubChem、ChEBI)链接以进行跨数据库查询
  4. 构建结合 HMDB 参考数据的本地工具或管道

相关 HMDB 资源

HMDB 生态系统包括相关数据库:

  • DrugBank:约 2,832 种药物化合物,带药物信息
  • T3DB(毒素和毒素目标数据库):约 3,670 种有毒化合物
  • SMPDB(小分子途径数据库):途径图和地图
  • FooDB:约 70,000 种食物成分化合物

这些数据库共享类似结构和标识符,支持跨人类代谢组、药物、毒素和食物数据库的集成查询。

最佳实践

数据质量:

  • 使用多种证据类型(光谱、结构、性质)验证代谢物鉴定
  • 检查实验与预测数据质量指标
  • 审查生物标志物关联的引用和证据

版本跟踪:

  • 记录研究中使用的 HMDB 版本(当前:v5.0)
  • 数据库定期更新新条目和更正
  • 发布时重新查询以确保信息最新

引用:

  • 始终在出版物中引用使用 HMDB
  • 讨论代谢物时引用特定 HMDB IDs
  • 确认下载数据集的数据源

性能:

  • 对于大规模分析,下载完整数据集而非重复网络查询
  • 使用适当文件格式(XML 用于全面数据,CSV 用于表格分析)
  • 考虑本地缓存频繁访问的代谢物信息

参考文档

参见 references/hmdb_data_fields.md 获取可用数据字段及其含义的详细信息。