littlebot
Published on 2025-04-09 / 0 Visits
0

【源码】基于Python和Selenium的天眼查企业信息爬虫

项目简介

本项目是基于Python和Selenium框架开发的企业信息爬虫工具。它可从天眼查网站爬取目标企业的工商信息,并将信息分类保存为Excel或JSON文件。用户只需输入企业的模糊名称或简称,就能快速获取所需企业信息。

项目的主要特性和功能

  • 模拟登录:运用Selenium的Xpath定位登录框,传入用户账户信息完成登录,登录时间约6 - 9秒。
  • 关键字的模糊识别:借助天眼查的模糊检索功能,支持用户仅提供部分关键字进行搜索。
  • 元素定位与数据提取:使用Selenium和Pandas库进行网页元素定位和数据提取,可爬取多种表格信息。
  • 数据导出:支持将爬取的企业信息保存为Excel或JSON格式。
  • 批量处理:支持批量爬取多个公司的信息,并分别保存为Excel文件。

安装使用步骤

1. 安装依赖

bash pip install tianyancha

2. 下载ChromeDriver

  • 下载与Chrome浏览器版本匹配的ChromeDriver。
  • chromedriver.exe(Windows)或chromedriver.dmg(Mac)移动到本地Python安装目录下。

3. 运行示例代码

  • 单个企业信息爬取: python from tianyancha import Tianyancha table_dict = Tianyancha(username='User', password='Password').tianyancha_scraper(keyword='Keyword', table='baseInfo', export='json')
  • 批量企业信息爬取: python tuple_dicts = Tianyancha(username='User', password='Password').tianyancha_scraper_batch(input_template='input.xlsx', export='xlsx') tuple_dicts[0]

4. 参数说明

  • keyword:公司名称,支持模糊或部分检索。
  • table:需要爬取的表格信息,默认为'all',支持多种表格类型。
  • use_default_exception:是否使用默认的排除列表,默认为True。
  • change_page_interval:爬取多页的时间间隔,默认为2秒。
  • export:输出保存格式,支持'xlsx'和'json'。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】