项目简介
本项目使用Python语言和Selenium库,自动化地从Journal Citation Reports网站爬取期刊的JCR缩写和ISO缩写,并将这些信息保存为文本文件。项目涵盖网页知识理解、爬虫环境搭建、期刊信息爬取、数据合并与提取等步骤。
项目的主要特性和功能
- 自动化爬取:利用Python脚本自动打开网站、筛选条件、设置显示数量并执行爬取过程,提升信息获取效率。
- 数据保存:将爬取的期刊信息保存到指定文本文件,方便后续分析和使用。
- 数据合并与提取:对所有爬取数据进行合并、排序、整理,提取特定列(如期刊名称、ISO缩写和JCR缩写)单独保存。
安装使用步骤
1. 安装Python
访问Python官网(https://www.python.org/downloads/)下载适合电脑系统的Python安装包,打开安装包勾选 Add python.exe to PATH 选项进行自定义安装,可选选项默认,高级选项勾选 Install for all users,指定安装路径后点击 Install 安装。安装后在CMD终端依次输入命令 Python
、exit()
、pip show pip
检查是否安装成功。
2. 安装Selenium库
打开命令行,输入pip install selenium
以安装Selenium库,再输入pip show selenium
查看是否安装成功及版本。
3. 安装ChromeDriver
确定Chrome浏览器的版本(在浏览器 设置 - 关于Chrome 中查看),从Chromedriver网站下载对应版本的Chromedriver,若未找到完全一致的版本,可选择前三位一致的版本下载使用。下载后解压到Python所在的目录(此步可免去额外的Chromedriver环境变量配置),在Python中运行 from selenium import webdriver; browser = webdriver.Chrome(); browser.get('https://baidu.com'); browser.quit();
测试是否安装成功。
4. 运行脚本
下载本项目提供的Python脚本,在命令行中输入python Crawler_JCR.py
以运行脚本。
5. 查看结果
脚本运行结束后,在指定的工作目录下会生成多个包含期刊信息的文本文件,以及经过合并、排序和提取处理后的文本文件。
注意:运行爬虫脚本时请确保网络连接稳定,并且遵守相关的法律法规和网站的爬虫协议,确保合法合规地获取和使用数据。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】