项目简介
本项目聚焦于商品评论的全面深入分析,综合运用图像识别、网络爬虫、自然语言处理等多领域技术。先通过条形码识别获取商品信息,再从商品销售平台爬取评论,最后对评论进行情感分析,以此获取商品的用户反馈和市场趋势。
项目的主要特性和功能
- 条形码识别:精准识别商品条形码,为评论爬取提供基础商品数据。
- 评论爬取:利用爬虫技术从淘宝等网站抓取商品相关评论。
- 情感分析:借助BERT等自然语言处理模型对评论进行情感分析,并输出分析结果。
- 数据可视化:通过词频分析、共现语义网络分析等,将评论数据进行可视化展示。
- 话题分析:运用TF - IDF和LDA模型进行话题分析,提取评论关键词和主题。
安装使用步骤
- 环境准备:确保安装Python 3.10及以上版本,可使用PyCharm或手动创建虚拟环境。手动创建时,先执行
pip install virtualenv
,再运行virtualenv venv
,最后激活虚拟环境。 - 依赖安装:激活虚拟环境后,执行
pip install -r requirements.txt
安装项目依赖。若使用CPU,需手动安装对应CPU依赖包。 - 数据准备:完善
data
文件夹,导入商品条形码图片;完善models
文件夹,导入BERT等模型;修改crawlinfo/tb/cominfo.py
中的login_taobao()
函数,填入淘宝账号密码。 - 运行程序:根据需求修改
main.py
中的传入参数和超参数,运行main.py
启动项目。也可单独运行根目录的各个功能模块进行灵活调试。 - 结果查看:分析完成后,查看
output
目录下的结果文件,包含情感分析、话题分析等结果。注意对output
内重要数据进行备份,防止二次运行导致数据丢失。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】