名称: hmdb-database 描述: “访问人类代谢组数据库（22万+代谢物）。通过名称/ID/结构搜索，检索化学性质、生物标志物数据、NMR/MS光谱、途径，用于代谢组学和鉴定。”

HMDB 数据库

概述

人类代谢组数据库（HMDB）是一个综合性、免费可用的资源，包含人体中发现的小分子代谢物的详细信息。

何时使用此技能

此技能应用于进行代谢组学研究、临床化学、生物标志物发现或代谢物鉴定任务时。

数据库内容

HMDB 版本 5.0（截至 2025 年）包含：

220,945 个代谢物条目，涵盖水溶性和脂溶性化合物
8,610 个蛋白质序列，用于涉及代谢的酶和转运蛋白
每个代谢物 130+ 个数据字段，包括：
- 化学性质（结构、分子式、分子量、InChI、SMILES）
- 临床数据（生物标志物关联、疾病、正常/异常浓度）
- 生物信息（途径、反应、位置）
- 光谱数据（NMR、MS、MS-MS 光谱）
- 外部数据库链接（KEGG、PubChem、MetaCyc、ChEBI、PDB、UniProt、GenBank）

核心能力

1. 基于网络的代谢物搜索

通过网站界面 https://www.hmdb.ca/ 访问 HMDB，用于：

文本搜索：

通过代谢物名称、同义词或标识符（HMDB ID）搜索
示例 HMDB IDs：HMDB0000001、HMDB0001234
通过疾病关联或途径参与搜索
通过生物样本类型（尿液、血清、脑脊液、唾液、粪便、汗液）查询

基于结构的搜索：

使用 ChemQuery 进行结构和子结构搜索
通过分子量或分子量范围搜索
使用 SMILES 或 InChI 字符串查找化合物

光谱搜索：

LC-MS 光谱匹配
GC-MS 光谱匹配
NMR 光谱搜索用于代谢物鉴定

高级搜索：

组合多个标准（名称、性质、浓度范围）
通过生物位置或样本类型过滤
通过蛋白质/酶关联搜索

2. 访问代谢物信息

检索代谢物数据时，HMDB 提供：

化学信息：

系统名称、传统名称和同义词
化学分子式和分子量
结构表示（2D/3D、SMILES、InChI、MOL 文件）
化学分类和分类学

生物背景：

代谢途径和反应
相关酶和转运蛋白
亚细胞位置
生物角色和功能

临床相关性：

生物流体中的正常浓度范围
与疾病的生物标志物关联
临床意义
适用时的毒性信息

分析数据：

实验和预测的 NMR 光谱
MS 和 MS-MS 光谱
保留时间和色谱数据
鉴定参考峰

3. 可下载的数据集

HMDB 在 https://www.hmdb.ca/downloads 提供多种格式的批量数据下载：

可用格式：

XML：完整的代谢物、蛋白质和光谱数据
SDF：用于化学信息学的代谢物结构文件
FASTA：蛋白质和基因序列
TXT：原始光谱峰列表
CSV/TSV：表格数据导出

数据集类别：

所有代谢物或按样本类型过滤
蛋白质/酶序列
实验和预测光谱（NMR、GC-MS、MS-MS）
途径信息

最佳实践：

下载 XML 格式以获取包括所有字段的全面数据
使用 SDF 格式进行基于结构的分析和化学信息学工作流
解析 CSV/TSV 格式以集成到数据分析管道中
检查版本日期以确保数据最新（当前：v5.0，2023-07-01）

使用要求：

免费用于学术和非商业研究
商业使用需要明确许可（联系 samackay@ualberta.ca）
使用数据时引用 HMDB 出版物

4. 程序化 API 访问

API 可用性： HMDB 不提供公共 REST API。程序化访问需要联系开发团队：

学术/研究小组： 联系 eponine@ualberta.ca (Eponine) 或 samackay@ualberta.ca (Scott)
商业组织： 联系 samackay@ualberta.ca (Scott) 获取定制 API 访问

替代程序化访问：

R/Bioconductor：使用 hmdbQuery 包进行 R 基础查询
- 安装：BiocManager::install("hmdbQuery")
- 提供基于 HTTP 的查询函数
下载的数据集： 在本地解析 XML 或 CSV 文件进行程序化分析
网络爬虫： 不推荐；请联系团队以获取适当的 API 访问

5. 常见研究工作流

非靶向代谢组学中的代谢物鉴定：

从样本获取实验性 MS 或 NMR 光谱
使用 HMDB 光谱搜索工具匹配参考光谱
通过检查分子量、保留时间和 MS-MS 碎片验证候选物
审查生物合理性（预期样本类型、已知途径）

生物标志物发现：

在 HMDB 中搜索与感兴趣疾病相关的代谢物
审查正常与疾病状态的浓度范围
识别具有强差异丰度的代谢物
检查途径背景和生物机制
通过 PubMed 链接交叉引用文献

途径分析：

从实验数据识别感兴趣的代谢物
查找每个代谢物的 HMDB 条目
提取途径关联和酶促反应
使用链接的 SMPDB（小分子途径数据库）获取途径图
识别途径富集用于生物解释

数据库集成：

以 XML 或 CSV 格式下载 HMDB 数据
解析并提取本地数据库的相关字段
与外部 IDs（KEGG、PubChem、ChEBI）链接以进行跨数据库查询
构建结合 HMDB 参考数据的本地工具或管道

最佳实践

数据质量：

使用多种证据类型（光谱、结构、性质）验证代谢物鉴定
检查实验与预测数据质量指标
审查生物标志物关联的引用和证据

版本跟踪：

记录研究中使用的 HMDB 版本（当前：v5.0）
数据库定期更新新条目和更正
发布时重新查询以确保信息最新

引用：

始终在出版物中引用使用 HMDB
讨论代谢物时引用特定 HMDB IDs
确认下载数据集的数据源

性能：

对于大规模分析，下载完整数据集而非重复网络查询
使用适当文件格式（XML 用于全面数据，CSV 用于表格分析）
考虑本地缓存频繁访问的代谢物信息

参考文档

参见 references/hmdb_data_fields.md 获取可用数据字段及其含义的详细信息。

HMDB数据库查询技能Skill hmdb-database