项目简介
本项目是一个基于Docker和Elasticsearch的文本检索后端系统,目标是打造高效、稳定的文本检索环境。系统将Elasticsearch作为核心搜索引擎,同时结合ik分词插件与词向量技术,实现对中文文本的高效处理与语义检索。
项目的主要特性和功能
- 高效文本检索:运用Elasticsearch强大的全文检索能力,实现快速且精准的文本检索。
- 中文分词处理:借助ik分词插件,高效处理中文文本的分词。
- 语义检索:集成词向量技术,实现基于语义的检索,提升检索的准确性。
- 数据导入:支持从外部数据源导入数据,便于构建大规模文本数据库。
安装使用步骤
步骤1: 准备环境
- 确保已安装Docker和Docker Compose。
- 准备数据集并解压。
- 下载中文词向量文件(sgns.wiki.bigram-char.txt),并放置到指定目录。
- 下载ik分词插件,放置到Elasticsearch的插件目录。
步骤2: 构建系统
- 在项目根目录下创建
.env
文件,设置相关参数(如密码、版本、端口等),示例如下: ```bash ELASTIC_PASSWORD=xxxxxxxx
STACK_VERSION=8.2.2
CLUSTER_NAME=docker-cluster
BACKEND_PORT=9000
APIDOC_PORT=3000
PLUGINS_PATH=/path-to-your-plugins
DATASET_PATH=/home/unidy/repos/lse-backend/dataset
WORD2VEC_PATH=/home/unidy/repos/lse-backend/word2vec
MEM_LIMIT=1073741824
2. 执行以下命令启动系统:
bash
docker-compose up
```
步骤3: 导入数据
系统启动后,执行以下命令导入数据:
bash
docker exec -it lse-backend-backend yarn setup-demo-data [N]
其中,N
为可选参数,表示导入文本数的上限。
注意事项
- 本系统使用Docker容器进行部署,需确保主机满足运行Docker的最低硬件要求。
- 为获得最佳性能,请根据实际需求调整内存限制和其他相关参数。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】