name: rag-implementation description: 构建检索增强生成（RAG）系统，用于LLM应用，结合向量数据库和语义搜索。当实现基于知识的AI、构建文档问答系统或集成LLMs与外部知识库时使用。

RAG 实现

掌握检索增强生成（RAG）以构建LLM应用，使用外部知识源提供准确、基于上下文的响应。

何时使用此技能

在专有文档上构建问答系统
创建具有当前、事实信息的聊天机器人
实现自然语言查询的语义搜索
通过基于上下文的响应减少幻觉
使LLMs能够访问特定领域知识
构建文档助手
创建带有源引用的研究工具

核心组件

1. 向量数据库

目的：高效存储和检索文档嵌入

选项：

Pinecone：托管、可扩展、无服务器
Weaviate：开源、混合搜索、GraphQL
Milvus：高性能、本地部署
Chroma：轻量级、易于使用、本地开发
Qdrant：快速、过滤搜索、基于Rust
pgvector：PostgreSQL扩展、SQL集成

2. 嵌入

目的：将文本转换为数值向量以进行相似性搜索

模型（2026年）：

模型	维度	最佳用途
voyage-3-large	1024	Claude应用（Anthropic推荐）
voyage-code-3	1024	代码搜索
text-embedding-3-large	3072	OpenAI应用、高精度
text-embedding-3-small	1536	OpenAI应用、成本效益高
bge-large-en-v1.5	1024	开源、本地部署
multilingual-e5-large	1024	多语言支持

3. 检索策略

方法：

密集检索：通过嵌入进行语义相似性
稀疏检索：关键词匹配（BM25、TF-IDF）
混合搜索：结合密集和稀疏检索，加权融合
多查询：生成多个查询变体
HyDE：生成假设文档以改善检索

4. 重排序

目的：通过重新排序结果提高检索质量

方法：

交叉编码器：基于BERT的重排序（ms-marco-MiniLM）
Cohere Rerank：基于API的重排序
最大边际相关性（MMR）：多样性和相关性
基于LLM：使用LLM评分相关性

使用LangGraph快速入门

from langgraph.graph import StateGraph, START, END
from langchain_anthropic import ChatAnthropic
from langchain_voyageai import VoyageAIEmbeddings
from langchain_pinecone import PineconeVectorStore
from langchain_core.documents import Document
from langchain_core.prompts import ChatPromptTemplate
from langchain_text_splitters import RecursiveCharacterTextSplitter
from typing import TypedDict, Annotated

class RAGState(TypedDict):
    question: str
    context: list[Document]
    answer: str

# 初始化组件
llm = ChatAnthropic(model="claude-sonnet-4-6")
embeddings = VoyageAIEmbeddings(model="voyage-3-large")
vectorstore = PineconeVectorStore(index_name="docs", embedding=embeddings)
retriever = vectorstore.as_retriever(search_kwargs={"k": 4})

# RAG提示
rag_prompt = ChatPromptTemplate.from_template(
    """基于以下上下文回答问题。如果无法回答，请说明。

    上下文：
    {context}

    问题：{question}

    答案："""
)

async def retrieve(state: RAGState) -> RAGState:
    """检索相关文档。"""
    docs = await retriever.ainvoke(state["question"])
    return {"context": docs}

async def generate(state: RAGState) -> RAGState:
    """从上下文生成答案。"""
    context_text = "

".join(doc.page_content for doc in state["context"])
    messages = rag_prompt.format_messages(
        context=context_text,
        question=state["question"]
    )
    response = await llm.ainvoke(messages)
    return {"answer": response.content}

# 构建RAG图
builder = StateGraph(RAGState)
builder.add_node("retrieve", retrieve)
builder.add_node("generate", generate)
builder.add_edge(START, "retrieve")
builder.add_edge("retrieve", "generate")
builder.add_edge("generate", END)

rag_chain = builder.compile()

# 使用
result = await rag_chain.ainvoke({"question": "主要特点是什么？"})
print(result["answer"])

高级RAG模式

模式1：带RRF的混合搜索

from langchain_community.retrievers import BM25Retriever
from langchain.retrievers import EnsembleRetriever

# 稀疏检索器（BM25用于关键词匹配）
bm25_retriever = BM25Retriever.from_documents(documents)
bm25_retriever.k = 10

# 密集检索器（嵌入用于语义搜索）
dense_retriever = vectorstore.as_retriever(search_kwargs={"k": 10})

# 结合互惠排名融合权重
ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, dense_retriever],
    weights=[0.3, 0.7]  # 30%关键词，70%语义
)

模式2：多查询检索

from langchain.retrievers.multi_query import MultiQueryRetriever

# 生成多个查询视角以提高召回率
multi_query_retriever = MultiQueryRetriever.from_llm(
    retriever=vectorstore.as_retriever(search_kwargs={"k": 5}),
    llm=llm
)

# 单一查询 → 多个变体 → 合并结果
results = await multi_query_retriever.ainvoke("主要主题是什么？")

模式3：上下文压缩

from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMChainExtractor

# 压缩器仅提取相关部分
compressor = LLMChainExtractor.from_llm(llm)

compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor,
    base_retriever=vectorstore.as_retriever(search_kwargs={"k": 10})
)

# 仅返回文档的相关部分
compressed_docs = await compression_retriever.ainvoke("具体查询")

模式4：父文档检索器

from langchain.retrievers import ParentDocumentRetriever
from langchain.storage import InMemoryStore
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 小块用于精确检索，大块用于上下文
child_splitter = RecursiveCharacterTextSplitter(chunk_size=400, chunk_overlap=50)
parent_splitter = RecursiveCharacterTextSplitter(chunk_size=2000, chunk_overlap=200)

# 父文档存储
docstore = InMemoryStore()

parent_retriever = ParentDocumentRetriever(
    vectorstore=vectorstore,
    docstore=docstore,
    child_splitter=child_splitter,
    parent_splitter=parent_splitter
)

# 添加文档（分割子块，存储父块）
await parent_retriever.aadd_documents(documents)

# 检索返回具有完整上下文的父文档
results = await parent_retriever.ainvoke("查询")

模式5：HyDE（假设文档嵌入）

from langchain_core.prompts import ChatPromptTemplate

class HyDEState(TypedDict):
    question: str
    hypothetical_doc: str
    context: list[Document]
    answer: str

hyde_prompt = ChatPromptTemplate.from_template(
    """写一个详细的段落来回答这个问题：

    问题：{question}

    段落："""
)

async def generate_hypothetical(state: HyDEState) -> HyDEState:
    """生成假设文档以改善检索。"""
    messages = hyde_prompt.format_messages(question=state["question"])
    response = await llm.ainvoke(messages)
    return {"hypothetical_doc": response.content}

async def retrieve_with_hyde(state: HyDEState) -> HyDEState:
    """使用假设文档进行检索。"""
    # 使用假设文档进行检索，而不是原始查询
    docs = await retriever.ainvoke(state["hypothetical_doc"])
    return {"context": docs}

# 构建HyDE RAG图
builder = StateGraph(HyDEState)
builder.add_node("hypothetical", generate_hypothetical)
builder.add_node("retrieve", retrieve_with_hyde)
builder.add_node("generate", generate)
builder.add_edge(START, "hypothetical")
builder.add_edge("hypothetical", "retrieve")
builder.add_edge("retrieve", "generate")
builder.add_edge("generate", END)

hyde_rag = builder.compile()

文档分块策略

递归字符文本分割器

from langchain_text_splitters import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=200,
    length_function=len,
    separators=["

", "
", ". ", " ", ""]  # 按顺序尝试
)

chunks = splitter.split_documents(documents)

基于令牌的分割

from langchain_text_splitters import TokenTextSplitter

splitter = TokenTextSplitter(
    chunk_size=512,
    chunk_overlap=50,
    encoding_name="cl100k_base"  # OpenAI tiktoken编码
)

语义分块

from langchain_experimental.text_splitter import SemanticChunker

splitter = SemanticChunker(
    embeddings=embeddings,
    breakpoint_threshold_type="percentile",
    breakpoint_threshold_amount=95
)

Markdown标题分割器

from langchain_text_splitters import MarkdownHeaderTextSplitter

headers_to_split_on = [
    ("#", "标题1"),
    ("##", "标题2"),
    ("###", "标题3"),
]

splitter = MarkdownHeaderTextSplitter(
    headers_to_split_on=headers_to_split_on,
    strip_headers=False
)

向量存储配置

Pinecone（无服务器）

from pinecone import Pinecone, ServerlessSpec
from langchain_pinecone import PineconeVectorStore

# 初始化Pinecone客户端
pc = Pinecone(api_key=os.environ["PINECONE_API_KEY"])

# 如果需要，创建索引
if "my-index" not in pc.list_indexes().names():
    pc.create_index(
        name="my-index",
        dimension=1024,  # voyage-3-large维度
        metric="cosine",
        spec=ServerlessSpec(cloud="aws", region="us-east-1")
    )

# 创建向量存储
index = pc.Index("my-index")
vectorstore = PineconeVectorStore(index=index, embedding=embeddings)

Weaviate

import weaviate
from langchain_weaviate import WeaviateVectorStore

client = weaviate.connect_to_local()  # 或 connect_to_weaviate_cloud()

vectorstore = WeaviateVectorStore(
    client=client,
    index_name="Documents",
    text_key="content",
    embedding=embeddings
)

Chroma（本地开发）

from langchain_chroma import Chroma

vectorstore = Chroma(
    collection_name="my_collection",
    embedding_function=embeddings,
    persist_directory="./chroma_db"
)

pgvector（PostgreSQL）

from langchain_postgres.vectorstores import PGVector

connection_string = "postgresql+psycopg://user:pass@localhost:5432/vectordb"

vectorstore = PGVector(
    embeddings=embeddings,
    collection_name="documents",
    connection=connection_string,
)

检索优化

1. 元数据过滤

from langchain_core.documents import Document

# 在索引期间添加元数据
docs_with_metadata = []
for doc in documents:
    doc.metadata.update({
        "source": doc.metadata.get("source", "unknown"),
        "category": determine_category(doc.page_content),
        "date": datetime.now().isoformat()
    })
    docs_with_metadata.append(doc)

# 在检索期间过滤
results = await vectorstore.asimilarity_search(
    "查询",
    filter={"category": "技术"},
    k=5
)

2. 最大边际相关性（MMR）

# 平衡相关性和多样性
results = await vectorstore.amax_marginal_relevance_search(
    "查询",
    k=5,
    fetch_k=20,  # 获取20个，返回前5个多样化的
    lambda_mult=0.5  # 0=最大多样性，1=最大相关性
)

3. 使用交叉编码器重排序

from sentence_transformers import CrossEncoder

reranker = CrossEncoder('cross-encoder/ms-marco-MiniLM-L-6-v2')

async def retrieve_and_rerank(query: str, k: int = 5) -> list[Document]:
    # 获取初始结果
    candidates = await vectorstore.asimilarity_search(query, k=20)

    # 重排序
    pairs = [[query, doc.page_content] for doc in candidates]
    scores = reranker.predict(pairs)

    # 按分数排序并取前k个
    ranked = sorted(zip(candidates, scores), key=lambda x: x[1], reverse=True)
    return [doc for doc, score in ranked[:k]]

4. Cohere重排序

from langchain.retrievers import CohereRerank
from langchain_cohere import CohereRerank

reranker = CohereRerank(model="rerank-english-v3.0", top_n=5)

# 用重排序包装检索器
reranked_retriever = ContextualCompressionRetriever(
    base_compressor=reranker,
    base_retriever=vectorstore.as_retriever(search_kwargs={"k": 20})
)

RAG的提示工程

带有引用的上下文提示

rag_prompt = ChatPromptTemplate.from_template(
    """基于以下上下文回答问题。使用[1]、[2]等格式包括引用。

    如果无法基于上下文回答，请说“我没有足够的信息。”

    上下文：
    {context}

    问题：{question}

    指令：
    1. 仅使用上下文中的信息
    2. 用[1]、[2]格式引用来源
    3. 如果不确定，表达不确定性

    答案（带引用）："""
)

RAG的结构化输出

from pydantic import BaseModel, Field

class RAGResponse(BaseModel):
    answer: str = Field(description="基于上下文的答案")
    confidence: float = Field(description="置信度分数0-1")
    sources: list[str] = Field(description="使用的源文档ID")
    reasoning: str = Field(description="答案的简要推理")

# 使用结构化输出
structured_llm = llm.with_structured_output(RAGResponse)

评估指标

from typing import TypedDict

class RAGEvalMetrics(TypedDict):
    retrieval_precision: float  # 相关文档 / 检索到的文档
    retrieval_recall: float     # 检索到的相关文档 / 总相关文档
    answer_relevance: float     # 答案针对问题
    faithfulness: float         # 答案基于上下文
    context_relevance: float    # 上下文针对问题

async def evaluate_rag_system(
    rag_chain,
    test_cases: list[dict]
) -> RAGEvalMetrics:
    """在测试用例上评估RAG系统。"""
    metrics = {k: [] for k in RAGEvalMetrics.__annotations__}

    for test in test_cases:
        result = await rag_chain.ainvoke({"question": test["question"]})

        # 检索指标
        retrieved_ids = {doc.metadata["id"] for doc in result["context"]}
        relevant_ids = set(test["relevant_doc_ids"])

        precision = len(retrieved_ids & relevant_ids) / len(retrieved_ids)
        recall = len(retrieved_ids & relevant_ids) / len(relevant_ids)

        metrics["retrieval_precision"].append(precision)
        metrics["retrieval_recall"].append(recall)

        # 使用LLM作为法官评估质量指标
        quality = await evaluate_answer_quality(
            question=test["question"],
            answer=result["answer"],
            context=result["context"],
            expected=test.get("expected_answer")
        )
        metrics["answer_relevance"].append(quality["relevance"])
        metrics["faithfulness"].append(quality["faithfulness"])
        metrics["context_relevance"].append(quality["context_relevance"])

    return {k: sum(v) / len(v) for k, v in metrics.items()}

资源

最佳实践

块大小：在上下文（较大）和特异性（较小）之间平衡 - 通常500-1000令牌
重叠：使用10-20%重叠以在边界保留上下文
元数据：包括来源、页面、时间戳以进行过滤和调试
混合搜索：结合语义和关键词搜索以获得最佳召回率
重排序：用于精度关键应用时使用交叉编码器重排序
引用：始终返回源文档以提高透明度
评估：持续测试检索质量和答案准确性
监控：在生产中跟踪检索指标和延迟

常见问题

检索差：检查嵌入质量、块大小、查询表述
不相关结果：添加元数据过滤、使用混合搜索、重排序
缺少信息：确保文档正确索引、检查分块
查询慢：优化向量存储、使用缓存、减少k
幻觉：改进基于上下文的提示、添加验证步骤
上下文太长：使用压缩或父文档检索器