littlebot

Published on 2025-04-09 / 7 Visits

0

【源码】基于Python和Selenium的天眼查企业信息爬虫

项目简介

本项目是基于Python和Selenium框架开发的企业信息爬虫工具。它可从天眼查网站爬取目标企业的工商信息，并将信息分类保存为Excel或JSON文件。用户只需输入企业的模糊名称或简称，就能快速获取所需企业信息。

项目的主要特性和功能

模拟登录：运用Selenium的Xpath定位登录框，传入用户账户信息完成登录，登录时间约6 - 9秒。
关键字的模糊识别：借助天眼查的模糊检索功能，支持用户仅提供部分关键字进行搜索。
元素定位与数据提取：使用Selenium和Pandas库进行网页元素定位和数据提取，可爬取多种表格信息。
数据导出：支持将爬取的企业信息保存为Excel或JSON格式。
批量处理：支持批量爬取多个公司的信息，并分别保存为Excel文件。

安装使用步骤

1. 安装依赖

bash pip install tianyancha

2. 下载ChromeDriver

下载与Chrome浏览器版本匹配的ChromeDriver。
将chromedriver.exe（Windows）或chromedriver.dmg（Mac）移动到本地Python安装目录下。

3. 运行示例代码

单个企业信息爬取： python from tianyancha import Tianyancha table_dict = Tianyancha(username='User', password='Password').tianyancha_scraper(keyword='Keyword', table='baseInfo', export='json')
批量企业信息爬取： python tuple_dicts = Tianyancha(username='User', password='Password').tianyancha_scraper_batch(input_template='input.xlsx', export='xlsx') tuple_dicts[0]

4. 参数说明

keyword：公司名称，支持模糊或部分检索。
table：需要爬取的表格信息，默认为'all'，支持多种表格类型。
use_default_exception：是否使用默认的排除列表，默认为True。
change_page_interval：爬取多页的时间间隔，默认为2秒。
export：输出保存格式，支持'xlsx'和'json'。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】