名称: hmdb-database 描述: “访问人类代谢组数据库(22万+代谢物)。通过名称/ID/结构搜索,检索化学性质、生物标志物数据、NMR/MS光谱、途径,用于代谢组学和鉴定。”
HMDB 数据库
概述
人类代谢组数据库(HMDB)是一个综合性、免费可用的资源,包含人体中发现的小分子代谢物的详细信息。
何时使用此技能
此技能应用于进行代谢组学研究、临床化学、生物标志物发现或代谢物鉴定任务时。
数据库内容
HMDB 版本 5.0(截至 2025 年)包含:
- 220,945 个代谢物条目,涵盖水溶性和脂溶性化合物
- 8,610 个蛋白质序列,用于涉及代谢的酶和转运蛋白
- 每个代谢物 130+ 个数据字段,包括:
- 化学性质(结构、分子式、分子量、InChI、SMILES)
- 临床数据(生物标志物关联、疾病、正常/异常浓度)
- 生物信息(途径、反应、位置)
- 光谱数据(NMR、MS、MS-MS 光谱)
- 外部数据库链接(KEGG、PubChem、MetaCyc、ChEBI、PDB、UniProt、GenBank)
核心能力
1. 基于网络的代谢物搜索
通过网站界面 https://www.hmdb.ca/ 访问 HMDB,用于:
文本搜索:
- 通过代谢物名称、同义词或标识符(HMDB ID)搜索
- 示例 HMDB IDs:HMDB0000001、HMDB0001234
- 通过疾病关联或途径参与搜索
- 通过生物样本类型(尿液、血清、脑脊液、唾液、粪便、汗液)查询
基于结构的搜索:
- 使用 ChemQuery 进行结构和子结构搜索
- 通过分子量或分子量范围搜索
- 使用 SMILES 或 InChI 字符串查找化合物
光谱搜索:
- LC-MS 光谱匹配
- GC-MS 光谱匹配
- NMR 光谱搜索用于代谢物鉴定
高级搜索:
- 组合多个标准(名称、性质、浓度范围)
- 通过生物位置或样本类型过滤
- 通过蛋白质/酶关联搜索
2. 访问代谢物信息
检索代谢物数据时,HMDB 提供:
化学信息:
- 系统名称、传统名称和同义词
- 化学分子式和分子量
- 结构表示(2D/3D、SMILES、InChI、MOL 文件)
- 化学分类和分类学
生物背景:
- 代谢途径和反应
- 相关酶和转运蛋白
- 亚细胞位置
- 生物角色和功能
临床相关性:
- 生物流体中的正常浓度范围
- 与疾病的生物标志物关联
- 临床意义
- 适用时的毒性信息
分析数据:
- 实验和预测的 NMR 光谱
- MS 和 MS-MS 光谱
- 保留时间和色谱数据
- 鉴定参考峰
3. 可下载的数据集
HMDB 在 https://www.hmdb.ca/downloads 提供多种格式的批量数据下载:
可用格式:
- XML:完整的代谢物、蛋白质和光谱数据
- SDF:用于化学信息学的代谢物结构文件
- FASTA:蛋白质和基因序列
- TXT:原始光谱峰列表
- CSV/TSV:表格数据导出
数据集类别:
- 所有代谢物或按样本类型过滤
- 蛋白质/酶序列
- 实验和预测光谱(NMR、GC-MS、MS-MS)
- 途径信息
最佳实践:
- 下载 XML 格式以获取包括所有字段的全面数据
- 使用 SDF 格式进行基于结构的分析和化学信息学工作流
- 解析 CSV/TSV 格式以集成到数据分析管道中
- 检查版本日期以确保数据最新(当前:v5.0,2023-07-01)
使用要求:
- 免费用于学术和非商业研究
- 商业使用需要明确许可(联系 samackay@ualberta.ca)
- 使用数据时引用 HMDB 出版物
4. 程序化 API 访问
API 可用性: HMDB 不提供公共 REST API。程序化访问需要联系开发团队:
- 学术/研究小组: 联系 eponine@ualberta.ca (Eponine) 或 samackay@ualberta.ca (Scott)
- 商业组织: 联系 samackay@ualberta.ca (Scott) 获取定制 API 访问
替代程序化访问:
- R/Bioconductor:使用
hmdbQuery包进行 R 基础查询- 安装:
BiocManager::install("hmdbQuery") - 提供基于 HTTP 的查询函数
- 安装:
- 下载的数据集: 在本地解析 XML 或 CSV 文件进行程序化分析
- 网络爬虫: 不推荐;请联系团队以获取适当的 API 访问
5. 常见研究工作流
非靶向代谢组学中的代谢物鉴定:
- 从样本获取实验性 MS 或 NMR 光谱
- 使用 HMDB 光谱搜索工具匹配参考光谱
- 通过检查分子量、保留时间和 MS-MS 碎片验证候选物
- 审查生物合理性(预期样本类型、已知途径)
生物标志物发现:
- 在 HMDB 中搜索与感兴趣疾病相关的代谢物
- 审查正常与疾病状态的浓度范围
- 识别具有强差异丰度的代谢物
- 检查途径背景和生物机制
- 通过 PubMed 链接交叉引用文献
途径分析:
- 从实验数据识别感兴趣的代谢物
- 查找每个代谢物的 HMDB 条目
- 提取途径关联和酶促反应
- 使用链接的 SMPDB(小分子途径数据库)获取途径图
- 识别途径富集用于生物解释
数据库集成:
- 以 XML 或 CSV 格式下载 HMDB 数据
- 解析并提取本地数据库的相关字段
- 与外部 IDs(KEGG、PubChem、ChEBI)链接以进行跨数据库查询
- 构建结合 HMDB 参考数据的本地工具或管道
相关 HMDB 资源
HMDB 生态系统包括相关数据库:
- DrugBank:约 2,832 种药物化合物,带药物信息
- T3DB(毒素和毒素目标数据库):约 3,670 种有毒化合物
- SMPDB(小分子途径数据库):途径图和地图
- FooDB:约 70,000 种食物成分化合物
这些数据库共享类似结构和标识符,支持跨人类代谢组、药物、毒素和食物数据库的集成查询。
最佳实践
数据质量:
- 使用多种证据类型(光谱、结构、性质)验证代谢物鉴定
- 检查实验与预测数据质量指标
- 审查生物标志物关联的引用和证据
版本跟踪:
- 记录研究中使用的 HMDB 版本(当前:v5.0)
- 数据库定期更新新条目和更正
- 发布时重新查询以确保信息最新
引用:
- 始终在出版物中引用使用 HMDB
- 讨论代谢物时引用特定 HMDB IDs
- 确认下载数据集的数据源
性能:
- 对于大规模分析,下载完整数据集而非重复网络查询
- 使用适当文件格式(XML 用于全面数据,CSV 用于表格分析)
- 考虑本地缓存频繁访问的代谢物信息
参考文档
参见 references/hmdb_data_fields.md 获取可用数据字段及其含义的详细信息。