name: rag-chunking-strategy description: 使用多种策略进行文档分块,包括语义分块、递归分块和固定大小分块 allowed-tools:
- Read
- Write
- Edit
- Bash
- Glob
- Grep
RAG 分块策略技能
能力
- 实现多种文档分块策略
- 基于内容边界配置语义分块
- 设置递归字符文本分割
- 设计带重叠的固定大小分块
- 实现文档感知分块(Markdown、代码等)
- 优化分块大小以提高检索质量
目标流程
- rag-管道实施
- 分块策略设计
实施细节
分块策略
- 递归字符文本分割器:使用分隔符进行分层分割
- 语义分块器:基于嵌入的语义边界
- 令牌文本分割器:令牌感知分割
- Markdown标题文本分割器:结构感知的Markdown分割
- 代码分割器:语言感知的代码分块
配置选项
- 分块大小(字符或令牌)
- 分块重叠百分比
- 分隔符层次结构
- 用于语义分块的嵌入模型
- 文档类型检测
最佳实践
- 使分块大小与嵌入模型限制匹配
- 使用适当的重叠以保留上下文
- 使用不同策略测试检索质量
- 在策略选择中考虑文档结构
依赖项
- langchain-text-splitters
- sentence-transformers(用于语义分块)