欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 健康 > 养生 > RagFlow 文档解析

RagFlow 文档解析

2025/1/29 14:08:58 来源:https://blog.csdn.net/weixin_43008312/article/details/144260325  浏览:    关键词:RagFlow 文档解析

RAGFlow:基于OCR和文档解析的下一代 RAG 引擎

RAGFlow 的设计哲学是“高质量输入,高质量输出”,它通过提供可解释性和可控性的生成结果,让用户能够信任并依赖于系统提供的答案。

这里写目录标题

    • RagFlow核心功能
    • 1、文本切片
    • 2、深度文档理解(DeepDoc)
    • 3、兼容各类异构数据源
        • DeepDoc
        • LLM
    • RagFlow核心架构
    • 1、文档解析器
    • 2、查询分析器
    • 3、LLM
    • 4、检索引擎
    • 5、重排器
    • RagFlow工作流程

RagFlow核心功能

1、文本切片

2、深度文档理解(DeepDoc)

3、兼容各类异构数据源

DeepDoc

DeepDoc的模型应该是基于paddleOCR的模型去微调训练的,开源出来的模型是onnx格式的
在这里插入图片描述
代码解析参考,后期可能从这里改要求的解析模板要求

LLM

在 RAGFlow 中,LLM(Large Language Models,大型语言模型)和嵌入模型(Embedding Models)扮演着至关重要的角色,它们共同协作以实现高效的信息检索和生成任务。

LLM的主要作用包括
1、理解用户查询
2、生成回答
3、提供可控性: LLM可以根据用户的指示生成特定风格或格式的回答,确保生成内容的可控性和准确性。
4、跨语言能力: 对于多语言环境下的RAG任务,LLM需要具备跨语言理解和生成的能力,以便在不同语言之间进行有效的信息检索和转换

Embedding的主要作用:
主要用于将文本数据转换为向量表示
1、文本向量化
2、相似性比较
3、检索数据
4、增强多模态处理能力

RagFlow核心架构

1、文档解析器

2、查询分析器

3、LLM

4、检索引擎

5、重排器

RagFlow工作流程

在这里插入图片描述

OK,到此为止RagFlow的理论基础大致有了一个概念,现在开始动手实操!

RagFlow使用教程

首先,需要在RagFlow中添加模型
在这里插入图片描述

chat模型用于测试,embedding模型用于分词做知识库

注意:url为自己ip地址加11434(Ollama默认服务端口)
查询自己的ip地址命令

时调整其输出的最大长度(max-tokens)
我填了2000,后期改参考这个

ipconfig

在这里插入图片描述
在这里插入图片描述

可能会报错:请求连接失败
需要在Ubuntu上确保防火墙没有阻止Ollama使用的端口(例如11434)

sudo ufw allow 11434
sudo ufw reload

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com