项目简介
本项目借助深度学习和自然语言处理技术,实现对知识库中PDF文档的智能检索与答案生成。系统可处理用户查询,经过文档解析、召回排序、LLM推理等流程,最终输出优化后的答案,适用于企业知识库、图书馆、研究机构等需要智能问答系统的场景。
项目的主要特性和功能
主要特性
- PDF解析与知识提取:通过
pdfparser
模块解析PDF文档,提取文本内容,利用BM25模型实现快速精确的文档检索。 - 多路召回与排序:采用BM25召回、embedding召回等多种策略,结合重排模型,提升答案的准确性与相关性。
- LLM智能推理与答案生成:运用LLM模型进行智能推理,借助模板构建和prompt技术,提高推理效率和准确性。
- 高效后处理与答案优化:对生成的答案进行后处理,去除无效内容,修复并优化答案以满足用户需求。
- 灵活的模型加载与配置:支持本地和在线多种大型语言模型的加载与配置,方便模型更新和替换。
功能描述
- 用户输入查询语句。
- 系统解析并索引PDF文档。
- 使用BM25模型进行相似性搜索,返回相关文档列表。
- 用重排模型对搜索结果排序。
- 利用LLM模型进行智能推理生成答案。
- 对答案进行后处理和优化。
- 将最终答案返回给用户。
安装使用步骤
假设用户已下载本项目的源码文件,按以下步骤操作:
1. 模型下载:
- Qwen-7B-Chat 使用官方线上模型。
- 从 thenlper/gte-large-zh · Hugging Face 下载 gte-large-zh
。
- 从 BAAI/bge-large-zh · Hugging Face 下载 bge-large-zh
。
- 从 BAAI/bge-reranker-large · Hugging Face 下载 bge-reranker-large
,并将这些模型文件放在 models
文件夹中。
2. 依赖安装:确保安装了项目所需的依赖库,如 jieba
、rank_bm25
、vllm
等。
3. 运行项目:在项目根目录下,执行 sh app/run.sh
启动程序,按提示输入查询语句即可获取答案。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】