littlebot
Published on 2025-04-08 / 0 Visits
0

【源码】基于Python的大型知识库问答系统

项目简介

本项目借助深度学习和自然语言处理技术,实现对知识库中PDF文档的智能检索与答案生成。系统可处理用户查询,经过文档解析、召回排序、LLM推理等流程,最终输出优化后的答案,适用于企业知识库、图书馆、研究机构等需要智能问答系统的场景。

项目的主要特性和功能

主要特性

  1. PDF解析与知识提取:通过 pdfparser 模块解析PDF文档,提取文本内容,利用BM25模型实现快速精确的文档检索。
  2. 多路召回与排序:采用BM25召回、embedding召回等多种策略,结合重排模型,提升答案的准确性与相关性。
  3. LLM智能推理与答案生成:运用LLM模型进行智能推理,借助模板构建和prompt技术,提高推理效率和准确性。
  4. 高效后处理与答案优化:对生成的答案进行后处理,去除无效内容,修复并优化答案以满足用户需求。
  5. 灵活的模型加载与配置:支持本地和在线多种大型语言模型的加载与配置,方便模型更新和替换。

功能描述

  1. 用户输入查询语句。
  2. 系统解析并索引PDF文档。
  3. 使用BM25模型进行相似性搜索,返回相关文档列表。
  4. 用重排模型对搜索结果排序。
  5. 利用LLM模型进行智能推理生成答案。
  6. 对答案进行后处理和优化。
  7. 将最终答案返回给用户。

安装使用步骤

假设用户已下载本项目的源码文件,按以下步骤操作: 1. 模型下载: - Qwen-7B-Chat 使用官方线上模型。 - 从 thenlper/gte-large-zh · Hugging Face 下载 gte-large-zh。 - 从 BAAI/bge-large-zh · Hugging Face 下载 bge-large-zh。 - 从 BAAI/bge-reranker-large · Hugging Face 下载 bge-reranker-large,并将这些模型文件放在 models 文件夹中。 2. 依赖安装:确保安装了项目所需的依赖库,如 jiebarank_bm25vllm 等。 3. 运行项目:在项目根目录下,执行 sh app/run.sh 启动程序,按提示输入查询语句即可获取答案。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】