项目简介
本项目结合了情感分析和文档问答功能,基于Python和PaddlePaddle框架开发。可对文本进行细粒度情感分析,还能提供智能文档问答功能,适用于消费决策、舆情分析、个性化推荐等多种应用场景。
项目的主要特性和功能
情感分析
- 细粒度情感分析:可识别文本中不同属性的情感倾向,如产品的味道、包装、服务等。
- 评论观点抽取:自动抽取文本中的评论属性和相应观点。
- 高性能预测:提供基于Paddle Inference的高性能预测脚本,适合线上部署。
文档问答
- 文档加载与存储:支持加载PDF、图像等多种格式文档,并转换为文本存储。
- 文档问答:基于文档内容提供知识问答功能,用户输入问题可获取相关信息或答案。
- 文档分割与检索:使用文档分割技术将文档分段,支持基于关键词或内容的片段检索。
安装使用步骤
环境准备
- Python环境:建议使用Python 3.6及以上版本。
- PaddlePaddle:安装PaddlePaddle框架,建议用GPU版本提升性能。
- PaddleNLP:安装PaddleNLP库,版本要求2.2.2及以上。
数据准备
- 情感分析数据:下载并解压Demo数据集
ext_data
和cls_data
,分别放入./data/ext_data
和./data/cls_data
目录。 - 文档问答数据:准备包含文档内容的数据集,支持PDF、图像等格式。
模型准备
- 情感分析模型:下载预训练的评论观点模型
ext_model
和属性级情感分类模型cls_model
,重命名为best.pdparams
,分别放入./checkpoints/ext_checkpoints
和./checkpoints/cls_checkpoints
中。 - 文档问答模型:根据需求准备或训练相应的问答模型。
运行系统
情感分析
- 快速体验:运行
sh run_demo.sh
进行交互式情感分析体验。 - 批量预测:运行
sh run_predict.sh
进行批量文本情感分析。 - 高性能预测:运行
sh run_export_model.sh
将模型转为静态图,然后使用deploy/predict.py
进行高性能预测。
文档问答
- 运行文档加载脚本,将文档转换为文本格式并存储。
- 运行问答脚本,输入问题获取文档中的相关信息或答案。
结果查看
- 情感分析结果:系统输出每个属性的情感极性,如正向、负向等。
- 文档问答结果:系统输出与问题相关的文档片段或答案。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】