项目简介
本项目基于Python语言,集成了多方面的数据处理功能。能够对YouBike骑行数据进行验证,通过对比多类官方资料判断数据是否遗漏;可估算Facebook粉丝页贴文数据存储所需空间,考虑建立索引后的空间变化;还实现了不借助第三方套件的TikTok爬虫,对指定频道贴文进行持续追踪并进行数据可视化展示。
项目的主要特性和功能
- YouBike数据验证:对比旅次资料、租借数量前十路线、站位每月使用量、起讫站点统计等数据,判断YouBike厂商提供的骑行数据是否存在遗漏。
- FB数据估算:针对100万则Facebook粉丝页贴文(包含贴文内容、心情互动统计、发文时间、粉丝页信息等),估算存储所需空间,并考虑使用B+tree建立中文索引后的空间占用情况。
- TikTok爬虫及可视化:模拟浏览器请求获取TikTok特定频道(geevideo)的贴文数据,持续追踪三天内贴文发布及每小时的爱心数、留言数、收藏数、分享数,使用Plotly进行可视化展示。
安装使用步骤
YouBike数据验证
- 准备好YouBike厂商提供的2018年4月骑行数据。
- 从官方API获取旅次资料、租借数量前十路线、站位每月使用量、起讫站点统计等相关数据。
- 运行相应脚本,对比数据以验证是否存在遗漏。
FB数据估算
- 确保已安装Python环境。
- 准备好示例贴文爬取数据(如test.json)。
- 运行数据估算脚本,查看不同情况下的存储空间占用结果。
TikTok爬虫及可视化
- 环境准备:安装Python环境,并安装requests、pandas、plotly等必要库。
- 配置参数:在
const.py
中设置startTimeStamp
、base_url
、params
、headers
等参数。 - 运行爬虫:运行
crawl.py
脚本,脚本会模拟请求获取数据,处理后保存为CSV文件。 - 定时任务设置(可选):在Linux系统中使用
crontab
设置定时任务,如0 * * * * bash /home/huangweichen/qsearch/run.sh
,实现每小时爬取数据。 - 数据可视化:将数据拉取到本地,运行可视化脚本,生成交互式的HTML图表文件。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】