name: semantic-similarity description: 用于内容关系与智能发现的语义相似度计算 allowed-tools:

Read
Write
Glob
Grep
Bash
WebFetch metadata: specialization: 知识管理 domain: 商业 category: 知识组织 skill-id: SK-020

语义相似度技能

概述

语义相似度技能为知识管理系统提供了计算和利用内容间语义关系的高级能力。通过现代嵌入模型和向量相似度技术，该技能实现了超越传统关键词匹配的智能内容发现、推荐和组织功能。

能力

文档嵌入生成

为文档和内容生成嵌入向量
配置嵌入模型（OpenAI、Cohere、开源模型）
实现批量嵌入处理流程
管理嵌入存储与检索
根据使用场景优化嵌入维度

句子转换器模型

配置句子转换器模型
针对领域特定内容微调模型 n- 实现多语言嵌入模型
设计模型选择策略

相似度搜索与聚类

实现向量相似度搜索（余弦相似度、点积）
配置近似最近邻（ANN）算法
设计内容聚类流程
实现组织结构的层次聚类

重复内容检测

识别重复和近似重复内容
配置检测的相似度阈值
实现去重工作流程
设计合并与整合策略

主题建模

实现LDA（潜在狄利克雷分布）
配置现代主题建模BERTopic
设计主题层次结构和分类体系
启用动态主题追踪

语义搜索集成

配置语义搜索流程
实现混合搜索（关键词+语义）
使用嵌入设计查询扩展
启用跨语言语义搜索

内容缺口分析

通过相似度分析识别缺失内容
使用嵌入映射内容覆盖范围
检测服务不足的主题和领域
设计内容规划建议

概念提取

从文档中提取关键概念
基于嵌入构建概念图谱
实现关键短语提取
设计概念标记流程

依赖项

句子转换器库
OpenAI嵌入API
Cohere嵌入API
Pinecone向量数据库
Weaviate
Milvus
FAISS（Facebook AI相似度搜索）
用于聚类的scikit-learn

流程集成

本技能与以下流程集成：

search-optimization.js：语义搜索和相关内容功能
knowledge-base-content.js：内容推荐和缺口分析
tacit-to-explicit-conversion.js：知识表示和概念提取

使用示例

生成文档嵌入

task: 为知识库内容生成嵌入
skill: semantic-similarity
parameters:
  source: knowledge-base
  model: text-embedding-3-small
  batch_size: 100
  output: vector-store
  dimensions: 1536

配置相似度搜索

task: 设置语义相似度搜索
skill: semantic-similarity
parameters:
  vector_store: pinecone
  index_name: kb-embeddings
  similarity_metric: cosine
  top_k: 10
  hybrid_search: true
  keyword_weight: 0.3

重复内容检测

task: 识别重复内容
skill: semantic-similarity
parameters:
  threshold: 0.92
  scope: all-documents
  output: duplicate-report.json
  action: flag_for_review

主题建模

task: 为知识库生成主题模型
skill: semantic-similarity
parameters:
  method: bertopic
  min_topic_size: 10
  nr_topics: auto
  output: topic-model
  visualizations: true

最佳实践

选择合适的嵌入模型 - 根据内容类型和语言匹配模型
标准化嵌入向量 - 确保文档间相似度得分的一致性
设置适当阈值 - 根据使用场景调整相似度阈值
实现混合搜索 - 结合语义和关键词搜索以获得最佳结果
监控嵌入漂移 - 随着模型改进定期重新嵌入内容
考虑延迟 - 缓存常用嵌入以提高性能
规划扩展性 - 对大型文档集合使用ANN索引
处理长文档 - 对冗长内容实施分块策略

架构模式

基础语义搜索流程

文档 -> 分块 -> 嵌入 -> 向量存储 -> 查询 -> 结果

混合搜索架构

查询 -> [关键词搜索] -> 结果
      -> [语义搜索] -> 结果
      -> [重新排序] -> 最终结果

指标

语义相似度系统的关键指标：

指标	描述	目标值
检索精确度	前k个结果中的相关结果	> 80%
搜索延迟	相似度搜索时间	< 200ms
重复检测F1值	重复内容发现的准确性	> 90%
主题一致性	主题模型的质量	> 0.5
用户满意度	相关性评分	> 4.0/5.0

语义相似度计算技能Skill semantic-similarity

语义相似度技能

概述

能力

文档嵌入生成

句子转换器模型

相似度搜索与聚类

相关内容推荐

重复内容检测

主题建模

语义搜索集成

内容缺口分析

概念提取

依赖项

流程集成

使用示例

生成文档嵌入

配置相似度搜索

重复内容检测

主题建模

最佳实践

架构模式

基础语义搜索流程

混合搜索架构

推荐流程

指标

相关技能

相关代理