【源码】基于Python的USTC文件搜索引擎

项目简介

本项目是基于Python的Web爬虫系统，从中国科学技术大学（USTC）的多个网站爬取文件数据，将数据存储在分布式数据库HBase中。同时可从HBase检索数据，并通过Flask创建简单Web界面可视化搜索结果。

环境准备：确保已安装Python，安装必要的Python库：requests、BeautifulSoup、happybase、elasticsearch、flask。
运行爬虫脚本：根据需求，运行相应的爬虫脚本（如SPYCYBERSEC.py、SPYFINANCE.py等），爬取目标网站的数据。
数据迁移：运行csv2hbase.py脚本，将爬取的数据迁移到HBase数据库。
数据索引：运行Hbase2ES.py脚本，将HBase中的数据迁移到Elasticsearch，并创建索引。
启动Web服务器：运行Flask应用，通过访问指定端口（如5000）的Web界面，进行搜索查询。

注意：运行过程中，可能需根据实际情况调整脚本中的参数设置，如数据库连接信息、爬虫目标网站等。同时，确保爬取网站时遵守相关网站的爬虫政策和法律法规。

点击下载 【提取码: 4003】【解压密码: www.makuang.net】