name: 嵌入融合策略 description: 在设计嵌入策略时使用，融合语义和结构信息用于知识图谱。当用户提到节点嵌入、结构嵌入、语义嵌入、对比对齐、嵌入融合、图的向量表示或结合文本和图信号时调用。提供嵌入选择、融合设计和实施指导。

嵌入融合策略

是什么？

这个技能帮助你设计结合语义（基于文本）和结构（基于图）信息的嵌入策略，涵盖节点、边、路径和子图级别。给定一个知识图谱和下游任务，它指导你选择合适的嵌入粒度、选择互补的语义和结构方法，并设计一个融合策略，以捕获含义和拓扑。

优势：纯文本嵌入或纯图嵌入都不能完全捕获实体含义。融合桥接了符号和语义世界，实现了任何单一方法都无法达到的检索和推理能力。

工作流程

复制此检查清单并逐步完成每个步骤：

嵌入融合策略进度：
- [ ] 步骤1：识别可用特征和数据源
- [ ] 步骤2：确定任务要求和成功标准
- [ ] 步骤3：选择粒度级别
- [ ] 步骤4：选择语义嵌入方法
- [ ] 步骤5：选择结构嵌入方法
- [ ] 步骤6：设计融合策略
- [ ] 步骤7：生成嵌入策略规范

步骤1：识别可用特征和数据源

盘点知识图谱中存在的信号：节点文本属性（名称、描述、类型）、边标签和属性、图拓扑（密度、直径、异质性）、任何可用的外部文本语料库或预训练模型。了解原始材料决定哪些嵌入是可行的。参见resources/methodology.md获取嵌入类型的完整分类。

步骤2：确定任务要求和成功标准

明确下游任务：实体检索、链接预测、问答、节点分类、推荐或子图匹配。每个任务偏好不同的粒度和融合方法。建立评估指标（MRR、Hits@K、F1、延迟预算）。参见resources/methodology.md获取任务到方法的映射和选择标准。

步骤3：选择粒度级别

使用粒度选择指南选择图的哪个级别进行嵌入。许多策略结合多个粒度（例如，节点嵌入用于检索加子图嵌入用于重排序）。参见resources/embedding-catalog.md获取每个级别的具体技术。

步骤4：选择语义嵌入方法

选择如何捕获基于文本的含义：LLM编码器用于丰富的上下文嵌入、Sentence-BERT用于高效的句子级相似性或邻域文本描述用于上下文感知语义。根据计算预算和新需求匹配方法。参见resources/methodology.md获取语义方法细节和权衡。

步骤5：选择结构嵌入方法

选择如何捕获图拓扑：Node2Vec用于灵活邻域采样、DeepWalk用于均匀随机游走、GraphSAGE用于未见节点的归纳学习或位置编码用于捕获图角色。根据图密度和更新频率匹配方法。参见resources/embedding-catalog.md获取完整结构技术目录。

步骤6：设计融合策略

使用融合方法之一结合语义和结构嵌入。关键决策：早期 vs 后期融合、对齐训练、维度管理以及是否维护每个实体的多个向量。参见resources/methodology.md获取详细融合设计方法，包括动态 vs 静态权衡和存储考虑。

步骤7：生成嵌入策略规范

使用输出模板文档完整设计。包括嵌入维度、训练过程、索引策略和更新机制。使用resources/evaluators/rubric_embedding_strategy.json自我评估。最低标准：平均分 >= 3.0。

粒度选择指南

粒度	描述	使用案例
节点	结合文本属性和局部结构上下文嵌入单个实体	实体检索、节点分类、实体链接、推荐
边	包括关系类型、端点上下文和边属性嵌入关系	链接预测、关系分类、三元组验证
路径	嵌入节点和边的序列，捕获多跳模式和元路径语义	多跳推理、路径发现、可解释检索
子图	嵌入局部邻域（自我网络、模式），捕获社区结构	子图匹配、异常检测、社区感知检索
社区	嵌入集群或分区，总结高级图区域	主题建模、粗粒度搜索、分层导航

融合方法

拼接

通过拼接结合语义和结构向量：v_fused = [v_semantic; v_structural]。简单并保留所有信息，但使维度加倍并将两个信号视为独立。

何时使用：基线方法、快速原型开发、当下游模型可以学习权重时。

基于注意力的融合

学习语义和结构组件的权重：v_fused = alpha * v_semantic + (1 - alpha) * v_structural，其中alpha按实体或查询学习。允许模型强调最具信息性的信号。

何时使用：当语义与结构的相对重要性跨实体或查询变化时。

对比对齐

使用对比损失（例如，InfoNCE）训练语义和结构嵌入以对相同实体达成一致。产生一个共享的嵌入空间，其中两个视图同意。实现跨模态检索。

何时使用：当想要单个统一空间、跨模态搜索或有对齐训练数据可用时。

后期融合 / 重排序

使用双编码器（单独的语义和结构检索）后跟交叉编码器重排序，共同考虑两个信号。分离快速候选生成和精确评分。

何时使用：大规模检索，其中查询时完全融合太昂贵；当延迟预算允许两阶段流水线时。

多向量表示

维护每个实体的多个嵌入（语义面、结构角色、上下文变体）。使用最大相似度或注意力池化匹配查询到最相关的面。

何时使用：具有多个角色或含义的实体、方面搜索、当单个向量丢失太多信息时。

输出模板

嵌入策略规范
=================================

领域：[知识图谱领域和规模]
任务：[主要下游任务]
成功指标：[MRR、Hits@K、延迟等]

粒度级别：[节点 / 边 / 路径 / 子图 / 社区]

语义方法：
  - 方法：[LLM编码器 / Sentence-BERT / 基于描述 / 等]
  - 输入：[嵌入什么文本]
  - 维度：[嵌入大小]
  - 模型：[具体模型名称/版本]
  - 更新频率：[静态 / 定期 / 实时]

结构方法：
  - 方法：[Node2Vec / DeepWalk / GraphSAGE / 位置编码 / 等]
  - 参数：[游走长度、维度、邻域大小等]
  - 维度：[嵌入大小]
  - 更新频率：[静态 / 定期 / 增量]

融合策略：
  - 方法：[拼接 / 注意力 / 对比 / 后期融合 / 多向量]
  - 最终维度：[融合嵌入大小]
  - 对齐训练：[损失函数、训练过程（如果适用）]
  - 理由：[为什么为此任务选择此融合方法]

索引与存储：
  - 索引类型：[HNSW / IVF / flat / 等]
  - 向量数据库：[如果适用]
  - 近似最近邻参数：[ef、nprobe等]
  - 存储估计：[总大小]

更新与维护：
  - 重新计算策略：[完全重新训练 / 增量 / 流式]
  - 陈旧容忍：[重新计算前的允许旧度]
  - 增量更新机制：[如果适用]

后续步骤：
- 实施嵌入流水线
- 如果适用，训练融合/对齐
- 构建ANN索引并基准测试检索质量
- 在下游任务上端到端验证
- 在生产中监控嵌入漂移