RAG分块策略技能 rag-chunking-strategy

RAG分块策略技能是一种专门用于优化检索增强生成(RAG)系统中文档处理流程的技术能力。它通过实现语义分块、递归分块、固定大小分块等多种智能文档分割策略,将长文档分解为适合向量数据库存储和检索的优化片段。该技能支持Markdown、代码等结构化文档的感知分块,可配置分块大小、重叠比例和分隔符,确保上下文完整性并提升后续嵌入模型处理和语义检索的准确性与效率。关键词:RAG分块策略,文档分割,语义分块,递归分块,固定大小分块,检索增强生成,向量数据库,LangChain,文本分割,AI文档处理。

RAG应用 0 次安装 0 次浏览 更新于 2/23/2026

name: rag-chunking-strategy description: 使用多种策略进行文档分块,包括语义分块、递归分块和固定大小分块 allowed-tools:

  • Read
  • Write
  • Edit
  • Bash
  • Glob
  • Grep

RAG 分块策略技能

能力

  • 实现多种文档分块策略
  • 基于内容边界配置语义分块
  • 设置递归字符文本分割
  • 设计带重叠的固定大小分块
  • 实现文档感知分块(Markdown、代码等)
  • 优化分块大小以提高检索质量

目标流程

  • rag-管道实施
  • 分块策略设计

实施细节

分块策略

  1. 递归字符文本分割器:使用分隔符进行分层分割
  2. 语义分块器:基于嵌入的语义边界
  3. 令牌文本分割器:令牌感知分割
  4. Markdown标题文本分割器:结构感知的Markdown分割
  5. 代码分割器:语言感知的代码分块

配置选项

  • 分块大小(字符或令牌)
  • 分块重叠百分比
  • 分隔符层次结构
  • 用于语义分块的嵌入模型
  • 文档类型检测

最佳实践

  • 使分块大小与嵌入模型限制匹配
  • 使用适当的重叠以保留上下文
  • 使用不同策略测试检索质量
  • 在策略选择中考虑文档结构

依赖项

  • langchain-text-splitters
  • sentence-transformers(用于语义分块)