Golang爬虫框架colly使用浅析

 更新时间:2023年05月15日 11:18:20   作者:q56731523  
这篇文章主要介绍了Golang爬虫框架colly的使用,colly是Go实现的比较有名的一款爬虫框架,而且Go在高并发和分布式场景的优势也正是爬虫技术所需要的,感兴趣想要详细了解可以参考下文

Golang 是一门非常适合编写网络爬虫的语言,它有着高效的并发处理能力和丰富的网络编程库。下面是一个简单的 Golang 网络爬虫示例:

package main
import (
    "fmt"
    "net/http"
    "io/ioutil"
    "regexp"
)
func main() {
    resp, err := http.Get("https://www.example.com")
    if err != nil {
        fmt.Println("Error:", err)
        return
    }
    defer resp.Body.Close()
    body, err := ioutil.ReadAll(resp.Body)
    if err != nil {
        fmt.Println("Error:", err)
        return
    }
    re := regexp.MustCompile("<title>(.*)</title>")
    title := re.FindStringSubmatch(string(body))[1]
    fmt.Println("Title:", title)
}

这个爬虫的功能是获取指定网站的标题。代码中使用了 Go 的标准库 net/http 和 regexp 来进行网络请求和正则表达式匹配。当然,这只是一个简单的示例,实际上爬虫需要考虑更多的问题,比如反爬虫、数据存储、并发控制等等。

gocolly是用go实现的网络爬虫框架,我这里用来测试的版本是:colly “github.com/gocolly/colly/v2”

gocolly的网络爬虫还是很强大,下面我们通过代码来看一下这个功能的使用

package main
import (
  "fmt"
  colly "github.com/gocolly/colly/v2"
  "github.com/gocolly/colly/v2/debug"
)
func main() {
  mUrl := "http://www.ifeng.com/"
  //colly的主体是Collector对象,管理网络通信和负责在作业运行时执行附加的回掉函数
  c := colly.NewCollector(
    // 开启本机debug
    colly.Debugger(&debug.LogDebugger{}),
  )
  //发送请求之前的执行函数
  c.OnRequest(func(r *colly.Request) {
    fmt.Println("这里是发送之前执行的函数")
  })
  //发送请求错误被回调
  c.OnError(func(_ *colly.Response, err error) {
    fmt.Print(err)
  })
  //响应请求之后被回调
  c.OnResponse(func(r *colly.Response) {
    fmt.Println("Response body length:", len(r.Body))
  })
  //response之后会调用该函数,分析页面数据
  c.OnHTML("div#newsList h1 a", func(e *colly.HTMLElement) {
    fmt.Println(e.Text)
  })
  //在OnHTML之后被调用
  c.OnScraped(func(r *colly.Response) {
    fmt.Println("Finished", r.Request.URL)
  })
  //这里是执行访问url
  c.Visit(mUrl)
}

运行结果如下:

这里是发送之前执行的函数

[000001] 1 [     1 - request] map["url":"http://www.ifeng.com/"] (0s)
[000002] 1 [     1 - responseHeaders] map["status":"OK" "url":"http://www.ifeng.com/"] (64.9485ms)
Response body length:250326
Finished http://www.ifeng.com/
[000003] 1 [     1 - response] map["status":"OK" "url":"http://www.ifeng.com/"] (114.9949ms)
[000004] 1 [     1 - html] map["selector":"div#newsList h1 a" "url":"http://www.ifeng.com/"] (118.9926ms)
[000005] 1 [     1 - html] map["selector":"div#newsList h1 a" "url":"http://www.ifeng.com/"] (118.9926ms)
[000006] 1 [     1 - scraped] map["url":"http://www.ifeng.com/"] (118.9926ms)

总结一下:

回调函数的调用顺序如下:

OnRequest在发起请求前被调用

OnError请求过程中如果发生错误被调用

OnResponse收到回复后被调用

OnHTML在OnResponse之后被调用,如果收到的内容是HTML

OnScraped在OnHTML之后被调用

到此这篇关于Golang爬虫框架colly使用浅析的文章就介绍到这了,更多相关Go colly框架内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Go语言开发浏览器视频流rtsp转webrtc播放

    Go语言开发浏览器视频流rtsp转webrtc播放

    这篇文章主要为大家介绍了Go语言开发浏览器视频流rtsp转webrtc播放的过程示例,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-04-04
  • 浅析Golang中闭包的创建与使用

    浅析Golang中闭包的创建与使用

    闭包是包括 Go 在内的编程语言的一项强大功能,通过闭包,您可以在函数中封装数据,并通过函数的返回值访问这些数据,本文将介绍Go 中闭包的基础知识,希望对大家有所帮助
    2023-11-11
  • 浅谈Go语言的空标示符

    浅谈Go语言的空标示符

    本文通过文字及实例介绍了Go语言的空标示符,对此有不明白的朋友可以参考学习,下面一起来看看吧。
    2016-08-08
  • Golang 实现分片读取http超大文件流和并发控制

    Golang 实现分片读取http超大文件流和并发控制

    这篇文章主要介绍了Golang 实现分片读取http超大文件流和并发控制,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-12-12
  • Go计时器的示例代码

    Go计时器的示例代码

    定时器是任何编程语言的重要工具,它允许开发人员在特定时间间隔安排任务或执行代码,本文主要介绍了Go计时器的示例代码,具有一定的参考价值,感兴趣的可以了解一下
    2024-01-01
  • golang官方嵌入文件到可执行程序的示例详解

    golang官方嵌入文件到可执行程序的示例详解

    这篇文章主要介绍了golang官方嵌入文件到可执行程序,本文通过示例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-02-02
  • 在Go中实现和使用堆栈以及先进先出原则详解

    在Go中实现和使用堆栈以及先进先出原则详解

    Go是一种功能强大的编程语言,提供了丰富的数据结构和算法,堆栈是计算机科学中的基本数据结构之一,在本博文中,我们将探讨如何在 Go 中实现和使用堆栈,以及堆栈如何遵循先进先出 (FIFO) 原则
    2023-10-10
  • golang time包的用法详解

    golang time包的用法详解

    这篇文章主要介绍了golang time包的用法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-04-04
  • 详解Golang中创建error的方式总结与应用场景

    详解Golang中创建error的方式总结与应用场景

    Golang中创建error的方式包括errors.New、fmt.Errorf、自定义实现了error接口的类型等,本文主要为大家介绍了这些方式的具体应用场景,需要的可以参考一下
    2023-07-07
  • Go使用TimerController解决timer过多的问题

    Go使用TimerController解决timer过多的问题

    多路复用,实际上Go底层也是一种多路复用的思想去实现的timer,但是它是底层的timer,我们需要解决的问题就过多的timer问题!本文给大家介绍了Go使用TimerController解决timer过多的问题,需要的朋友可以参考下
    2024-12-12

最新评论