项目简介
本项目是一个基于内存的英文全文检索搜索引擎。它会扫描指定目录下的.txt
格式文本文件,并在内存中建立倒排索引。基于构建好的索引,可实现单个搜索关键词的全文检索、两个搜索关键词的全文检索以及包含两个相邻单词的短语检索。
项目的主要特性和功能
- 倒排索引构建:从指定目录的文本文件构建倒排索引并存储于内存。
- 全文检索:支持单个关键词和两个关键词的全文检索。
- 短语检索:支持包含两个相邻单词的短语检索。
- 索引优化:构建索引后可进行优化,提高搜索效率。
- 索引持久化:能将构建好的索引保存到文件,也可从文件加载索引。
安装使用步骤
环境准备
- JDK版本:jdk - 13.0.2
- IDE:IntelliJ IDEA 2021.3.2 (Ultimate Edition)
下载源码
从项目仓库下载源码文件。
构建索引
- 在
text
目录下存放所有需搜索的.txt
文档。 - 使用包
src.hust.cs.javacourse.search.run
中的TestBuildIndex
类编译运行来构建索引,程序会将构建好的索引序列化到二进制文件。
执行搜索
- 在包
src.hust.cs.javacourse.search.run.TestSearchIndex
的main
函数中修改搜索方式,然后编译运行该文件。 - 检索获得的命中文档信息将在控制台输出。
索引文件管理
- 索引文件默认存储在
index
目录下的index.dat
文件中。 - 可通过
TestBuildIndex
类将索引保存到文件,通过TestSearchIndex
类从文件中加载索引。
通过上述步骤,可成功构建索引并执行搜索操作。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】