项目简介
本项目是基于Python和Selenium框架开发的企业信息爬虫工具。它可从天眼查网站爬取目标企业的工商信息,并将信息分类保存为Excel或JSON文件。用户只需输入企业的模糊名称或简称,就能快速获取所需企业信息。
项目的主要特性和功能
- 模拟登录:运用Selenium的Xpath定位登录框,传入用户账户信息完成登录,登录时间约6 - 9秒。
- 关键字的模糊识别:借助天眼查的模糊检索功能,支持用户仅提供部分关键字进行搜索。
- 元素定位与数据提取:使用Selenium和Pandas库进行网页元素定位和数据提取,可爬取多种表格信息。
- 数据导出:支持将爬取的企业信息保存为Excel或JSON格式。
- 批量处理:支持批量爬取多个公司的信息,并分别保存为Excel文件。
安装使用步骤
1. 安装依赖
bash
pip install tianyancha
2. 下载ChromeDriver
- 下载与Chrome浏览器版本匹配的ChromeDriver。
- 将
chromedriver.exe
(Windows)或chromedriver.dmg
(Mac)移动到本地Python安装目录下。
3. 运行示例代码
- 单个企业信息爬取:
python from tianyancha import Tianyancha table_dict = Tianyancha(username='User', password='Password').tianyancha_scraper(keyword='Keyword', table='baseInfo', export='json')
- 批量企业信息爬取:
python tuple_dicts = Tianyancha(username='User', password='Password').tianyancha_scraper_batch(input_template='input.xlsx', export='xlsx') tuple_dicts[0]
4. 参数说明
keyword
:公司名称,支持模糊或部分检索。table
:需要爬取的表格信息,默认为'all',支持多种表格类型。use_default_exception
:是否使用默认的排除列表,默认为True。change_page_interval
:爬取多页的时间间隔,默认为2秒。export
:输出保存格式,支持'xlsx'和'json'。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】