name: semantic-similarity description: 用于内容关系与智能发现的语义相似度计算 allowed-tools:
- Read
- Write
- Glob
- Grep
- Bash
- WebFetch metadata: specialization: 知识管理 domain: 商业 category: 知识组织 skill-id: SK-020
语义相似度技能
概述
语义相似度技能为知识管理系统提供了计算和利用内容间语义关系的高级能力。通过现代嵌入模型和向量相似度技术,该技能实现了超越传统关键词匹配的智能内容发现、推荐和组织功能。
能力
文档嵌入生成
- 为文档和内容生成嵌入向量
- 配置嵌入模型(OpenAI、Cohere、开源模型)
- 实现批量嵌入处理流程
- 管理嵌入存储与检索
- 根据使用场景优化嵌入维度
句子转换器模型
- 配置句子转换器模型
- 针对领域特定内容微调模型 n- 实现多语言嵌入模型
- 设计模型选择策略
相似度搜索与聚类
- 实现向量相似度搜索(余弦相似度、点积)
- 配置近似最近邻(ANN)算法
- 设计内容聚类流程
- 实现组织结构的层次聚类
相关内容推荐
- 构建内容推荐系统
- 配置“更多类似内容”功能
- 使用嵌入实现协同过滤
- 设计混合推荐方法
重复内容检测
- 识别重复和近似重复内容
- 配置检测的相似度阈值
- 实现去重工作流程
- 设计合并与整合策略
主题建模
- 实现LDA(潜在狄利克雷分布)
- 配置现代主题建模BERTopic
- 设计主题层次结构和分类体系
- 启用动态主题追踪
语义搜索集成
- 配置语义搜索流程
- 实现混合搜索(关键词+语义)
- 使用嵌入设计查询扩展
- 启用跨语言语义搜索
内容缺口分析
- 通过相似度分析识别缺失内容
- 使用嵌入映射内容覆盖范围
- 检测服务不足的主题和领域
- 设计内容规划建议
概念提取
- 从文档中提取关键概念
- 基于嵌入构建概念图谱
- 实现关键短语提取
- 设计概念标记流程
依赖项
- 句子转换器库
- OpenAI嵌入API
- Cohere嵌入API
- Pinecone向量数据库
- Weaviate
- Milvus
- FAISS(Facebook AI相似度搜索)
- 用于聚类的scikit-learn
流程集成
本技能与以下流程集成:
- search-optimization.js:语义搜索和相关内容功能
- knowledge-base-content.js:内容推荐和缺口分析
- tacit-to-explicit-conversion.js:知识表示和概念提取
使用示例
生成文档嵌入
task: 为知识库内容生成嵌入
skill: semantic-similarity
parameters:
source: knowledge-base
model: text-embedding-3-small
batch_size: 100
output: vector-store
dimensions: 1536
配置相似度搜索
task: 设置语义相似度搜索
skill: semantic-similarity
parameters:
vector_store: pinecone
index_name: kb-embeddings
similarity_metric: cosine
top_k: 10
hybrid_search: true
keyword_weight: 0.3
重复内容检测
task: 识别重复内容
skill: semantic-similarity
parameters:
threshold: 0.92
scope: all-documents
output: duplicate-report.json
action: flag_for_review
主题建模
task: 为知识库生成主题模型
skill: semantic-similarity
parameters:
method: bertopic
min_topic_size: 10
nr_topics: auto
output: topic-model
visualizations: true
最佳实践
- 选择合适的嵌入模型 - 根据内容类型和语言匹配模型
- 标准化嵌入向量 - 确保文档间相似度得分的一致性
- 设置适当阈值 - 根据使用场景调整相似度阈值
- 实现混合搜索 - 结合语义和关键词搜索以获得最佳结果
- 监控嵌入漂移 - 随着模型改进定期重新嵌入内容
- 考虑延迟 - 缓存常用嵌入以提高性能
- 规划扩展性 - 对大型文档集合使用ANN索引
- 处理长文档 - 对冗长内容实施分块策略
架构模式
基础语义搜索流程
文档 -> 分块 -> 嵌入 -> 向量存储 -> 查询 -> 结果
混合搜索架构
查询 -> [关键词搜索] -> 结果
-> [语义搜索] -> 结果
-> [重新排序] -> 最终结果
推荐流程
用户上下文 -> 查找相似内容 -> 按元数据过滤 -> 个性化 -> 推荐
指标
语义相似度系统的关键指标:
| 指标 | 描述 | 目标值 |
|---|---|---|
| 检索精确度 | 前k个结果中的相关结果 | > 80% |
| 搜索延迟 | 相似度搜索时间 | < 200ms |
| 重复检测F1值 | 重复内容发现的准确性 | > 90% |
| 主题一致性 | 主题模型的质量 | > 0.5 |
| 用户满意度 | 相关性评分 | > 4.0/5.0 |
相关技能
- knowledge-graph (SK-008):基于图的语义关系
- search-engine (SK-005):企业搜索集成
- content-curation (SK-010):基于质量的内容管理
相关代理
- kg-specialist (AG-008):知识图谱和语义专业知识
- search-expert (AG-004):搜索优化指导
- knowledge-architect (AG-001):整体知识管理战略对齐