项目简介
本项目是基于Go语言开发的多功能项目,主要包含一个多功能爬虫库和一个HTML到Markdown的转换器。爬虫库通过封装Golang原生HTTP库,处理琐碎逻辑并加入容错机制,保障高并发安全。它提供丰富API接口,支持多种请求设置和分布式爬虫开发。HTML到Markdown转换器则能将HTML内容便捷地转换为Markdown格式。
项目的主要特性和功能
爬虫库功能
- 支持代理、正常、API和自定义客户端等多种矿工类型,满足不同场景需求。
- 可设置HTTP请求的网址、方法、超时时间等丰富信息。
- 支持所有HTTP方法及自定义方法。
- 每次下载返回二进制数据,提供多种解析方法,可清除表单等数据。
- 支持在爬虫动作前后进行AOP注入。
- 内置爬虫池和浏览器UA池,便于开发分布式爬虫。
HTML到Markdown转换器功能
- 允许用户添加自定义规则处理特定HTML元素。
- 能处理HTML中常见元素并转换为Markdown格式。
- 定义多种转换函数处理列表、块引用等元素。
- 通过
init()
函数注册规则和处理函数,调用Convert()
函数进行转换。
安装使用步骤
爬虫库
安装
可通过以下方式获取库:
或者直接下载:
使用步骤
- 根据需求选择代理矿工、正常矿工、API矿工或自定义客户端矿工。
- 设置HTTP请求的网址、方法、超时时间等信息。
- 选择合适的启动方式(如
Go()
、Get()
、Post()
等)发起请求。 - 每次下载返回二进制数据,自行解析。下载后可根据需要重置表单等数据。
HTML到Markdown转换器
安装
将代码下载到本地,并导入到Go项目的依赖中。
使用步骤
- 在项目中创建或导入HTML内容。
- 调用
Convert()
函数,将HTML内容转换为Markdown格式。 - 处理转换结果,可保存到文件、打印到控制台或用于其他目的。
示例代码
爬虫库示例
```go package main
import ( "fmt" )
func main() { // 1.新建一个矿工 worker, _ := miner.New(nil) // 2.设置网址 // 3.抓取网址 html, err := worker.Go() if err!= nil { fmt.Println(err.Error()) } // 4.打印内容,等同于fmt.Println(worker.ToString()) fmt.Println(string(html)) } ```
HTML到Markdown转换器示例
```go package main
import ( "fmt" )
func main() { html := "
Hello, World!
" md := html2md.Convert(html) fmt.Println(md) } ```下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】