项目简介
本项目是基于Python的Web爬虫系统,从中国科学技术大学(USTC)的多个网站爬取文件数据,将数据存储在分布式数据库HBase中。同时可从HBase检索数据,并通过Flask创建简单Web界面可视化搜索结果。
项目的主要特性和功能
- 网站爬取:编写多个爬虫脚本,从USTC不同网站(如财务处、网络空间安全学院等)爬取资源链接、标题和日期等信息。
- 数据存储:将爬取的数据存于HBase,该数据库具有高可靠性、高性能、面向列的特点,适合存储大规模结构化数据。
- 数据索引:利用Elasticsearch对HBase中的数据建立索引,支持全文搜索,集成中文分词器ik插件处理中文分词问题。
- Web界面搜索:借助Flask框架和Elasticsearch Python客户端,实现简单Web界面用于搜索并显示结果。
安装使用步骤
- 环境准备:确保已安装Python,安装必要的Python库:
requests
、BeautifulSoup
、happybase
、elasticsearch
、flask
。 - 运行爬虫脚本:根据需求,运行相应的爬虫脚本(如
SPYCYBERSEC.py
、SPYFINANCE.py
等),爬取目标网站的数据。 - 数据迁移:运行
csv2hbase.py
脚本,将爬取的数据迁移到HBase数据库。 - 数据索引:运行
Hbase2ES.py
脚本,将HBase中的数据迁移到Elasticsearch,并创建索引。 - 启动Web服务器:运行Flask应用,通过访问指定端口(如5000)的Web界面,进行搜索查询。
注意:运行过程中,可能需根据实际情况调整脚本中的参数设置,如数据库连接信息、爬虫目标网站等。同时,确保爬取网站时遵守相关网站的爬虫政策和法律法规。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】