项目简介
本项目是基于Python和Django框架构建的CSDN博客搜索引擎。借助爬虫技术从CSDN博客网站抓取数据,利用Whoosh搜索引擎建立倒排索引,从而实现高效的博客文章搜索功能,同时支持关键词高亮和相关搜索等特性。
项目的主要特性和功能
- 数据爬取:运用爬虫技术从CSDN博客网站抓取博客文章。
- 搜索引擎:通过Whoosh建立倒排索引,实现快速的全文搜索。
- 搜索结果排序:依据相关性对搜索结果进行排序。
- 关键词高亮:在搜索结果中高亮显示用户输入的关键词。
- 相关搜索:基于Word2Vec模型提供相关搜索建议。
安装使用步骤
1. 环境准备
确保已安装以下环境: - Python 3.6 - Django 2.1 - MySQL - ChromeDriver(用于爬虫)
2. 安装依赖
在项目根目录下运行以下命令安装所需的Python库:
bash
pip install -r requirements.txt
3. 配置数据库
在settings.py
文件中配置MySQL数据库连接信息:
python
DATABASES = {
'default': {
'ENGINE': 'django.db.backends.mysql',
'NAME': 'csdnBlogs',
'USER': 'root',
'PASSWORD': 'password',
'HOST': '127.0.0.1',
'PORT': '3306',
}
}
4. 配置爬虫
在csdn_crawler.py
文件中配置ChromeDriver的路径:
python
driver = webdriver.Chrome(executable_path='/path/to/chromedriver')
5. 运行爬虫
运行爬虫脚本,抓取CSDN博客文章并存储到数据库中:
bash
python csdn_crawler.py
6. 启动Django服务器
在项目根目录下运行以下命令启动Django开发服务器:
bash
python manage.py runserver
7. 访问搜索引擎
打开浏览器,访问http://127.0.0.1:8000/
,输入关键词进行搜索。
注意事项
- 运行爬虫时要确保遵守CSDN的使用协议和法律法规,避免非法爬取和使用数据。
- 项目为新手项目,如有问题,欢迎指正和改进。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】