项目简介
本项目是基于Python的人物信息提取系统,针对特定文本数据,可提取人物的教育背景、工作经历、学历等关键信息。通过Python脚本处理文本,运用算法和规则完成信息提取,并将结果保存至CSV文件。
项目的主要特性和功能
- 关键词获取:从文件读取985和211大学名称列表。
- 文本清洗:去除文本中的无关信息,如特定职位的数据行。
- 数据保存与读取:支持将数据保存为JSON文件,也能从JSON文件读取数据。
- 词法分析:创建请求URL进行词法分析,得到文本语义分析结果。
- 学历和大学级别检测:判断毕业院校是否为985或211,识别文本描述的学历水平。
- 教育背景和工作经历判断:检测文本中是否有MBA、EMBA学习经历以及管理经验描述。
- 结果输出:将提取的信息整理后保存到CSV文件。
安装使用步骤
- 环境准备:确保计算机已安装Python并配置好开发环境。
- 文件准备:把
info_extractor.py
脚本和maninfo.csv
文件放在同一文件夹,创建名为names
的文件夹用于存放处理结果。 - 运行脚本:在终端或命令提示符中,进入脚本所在文件夹,运行
python info_extractor.py
。 - 查看结果:处理完成后,同一文件夹下会生成包含提取信息的CSV文件。
注意事项:运行脚本前需安装所有必要的Python库,如requests等。若遇到问题,可检查脚本日志输出获取详细信息。为获最佳提取效果,确保输入文本数据格式清晰、结构一致。使用百度智能云API的详细信息,可查阅相关文档。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】