项目简介
本项目构建了一个学术资源爬虫与检索系统,能够从ACM、library genesis、YouTube、PPT Silver等网站爬取论文、电子书、学术视频和PPT等学术资源,并将这些数据存储在MongoDB中。通过Elasticsearch构建了高效的检索系统,结合VueJs前端框架,提供了一个综合的学术资源检索与展示平台。
项目的主要特性和功能
- 多粒度增量爬取:将论文数据划分为多个区间,避免重复爬取,支持断点续爬。
- 自动防反爬:根据数据库使用统计信息,自动获取用户代理,提升爬虫的鲁棒性。
- 相关信息爬取对齐:根据论文数据在视频、PPT网站中进行检索爬取,确保视频与论文的相关性。
- 检索排序:根据论文与查询字符串的匹配程度、发表年份、引用数进行排序,保证查询结果的有效性。
- 分页查询:每页显示固定数量的查询结果,减轻网络负担。
- 网页状态管理:使用Vuex缓存查询结果,减少重复请求。
安装使用步骤
1. 爬虫环境配置
- MongoDB配置:安装MongoDB并启动服务,创建数据存储目录和日志文件目录,并设置权限。
- Scrapy及其他Python库配置:安装Scrapy和相关的Python库,运行爬虫程序,开始爬取数据。
2. 检索环境配置
- ElasticSearch配置:安装并解压ElasticSearch,启动ElasticSearch服务。
- 检索模块配置:安装依赖的Python库,运行检索模块,启动后端服务。
3. 前端环境配置
- NodeJs安装:安装NodeJs和npm。
- 项目依赖配置:安装前端项目依赖,启动前端程序。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】