CocoIndex是一个为人工智能实时数据转换而设计的超高性能框架,支持增量处理。这项技能使得构建索引流成为可能,从源数据提取信息,应用转换(分块、嵌入、LLM提取),并导出到目标(向量数据库、图数据库、关系数据库)。
核心能力包括:
- 编写索引流 - 使用Python定义ETL管道
- 创建自定义函数 - 构建可重用的转换逻辑
- 操作流 - 使用CLI或Python API运行和管理流
主要特点:
- 增量处理(仅处理更改的数据)
- 实时更新(持续同步源变更到目标)
- 内置函数(文本分块、嵌入、LLM提取)
- 多种数据源(本地文件、S3、Azure Blob、Google Drive、Postgres)
- 多种目标(Postgres+pgvector、Qdrant、LanceDB、Neo4j、Kuzu)
详细文档:https://cocoindex.io/docs/ 搜索文档:https://cocoindex.io/docs/search?q=url encoded keyword