Python使用Chrome插件实现爬虫过程图解

 更新时间:2020年06月09日 12:07:13   作者:Johnthegreat  
这篇文章主要介绍了Python使用Chrome插件实现爬虫,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

做电商时,消费者对商品的评论是很重要的,但是不会写代码怎么办?这里有个Chrome插件可以做到简单的数据爬取,一句代码都不用写。下面给大家展示部分抓取后的数据:

可以看到,抓取的地址,评论人,评论内容,时间,产品颜色都已经抓取下来了。那么,爬取这些数据需要哪些工具呢?就两个:

1. Chrome浏览器;

2. 插件:Web Scraper

插件下载地址:https://chromecj.com/productivity/2018-05/942.html

最后,如果你想自己动手抓取一下,这里是这次抓取的详细过程:

1. 首先,复制如下的代码,对,你不需要写代码,但是为了便于上手,复制代码还是需要的,后续可以自己定制和选择,不需要写代码。

{
  "_id": "jdreview",
  "startUrl": [
    "https://item.jd.com/100000680365.html#comment"
  ],
  "selectors": [
    {
      "id": "user",
      "type": "SelectorText",
      "selector": "div.user-info",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "comments",
      "type": "SelectorText",
      "selector": "div.comment-column > p.comment-con",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "time",
      "type": "SelectorText",
      "selector": "div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": "0"
    },
    {
      "id": "color",
      "type": "SelectorText",
      "selector": "div.order-info span:nth-of-type(1)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "main",
      "type": "SelectorElementClick",
      "selector": "div.comment-item",
      "parentSelectors": [
        "_root"
      ],
      "multiple": true,
      "delay": "10000",
      "clickElementSelector": "div.com-table-footer a.ui-pager-next",
      "clickType": "clickMore",
      "discardInitialElements": false,
      "clickElementUniquenessType": "uniqueHTMLText"
    }
  ]
}

2. 然后打开chrome浏览器,在任意页面同时按下Ctrl+Shift+i,在弹出的窗口中找到Web Scraper,如下:

3. 如下

4. 如图,粘贴上述的代码:

5. 如图,如果需要定制网址,注意替代一下,网址后面的#comment是直达评论的链接,不能去掉:

6. 如图:

7. 如图:

8. 如图,点击Scrape后,会自动运行打开需要抓取得页面,不要关闭窗口,静静等待完成,完成后右下方会提示完成,一般1000条以内的评论不会有问题:

9. 最后,点击下载到电脑,数据保存好。

使用这个工具的好处是:

1. 不需要编程;

2. 京东的评论基本可以通用此脚本,修改对应的url即可;

3. 如果需要爬取的评论不到1000条,这个工具会非常称手,所有的数据完全自动下载;

使用的注意点:

1. 抓取过一次的数据会有记录,立刻再次抓取将不会保存,建议关闭浏览器重新打开后再试;

2. 抓取数量:1000条以内没有问题,可能是京东按照IP直接阻止了更多的爬取;

如果你的英语水平不错,可以尝试阅读官方文档,进一步学习和定制自己的爬虫。

官方教程:https://www.webscraper.io/documentation

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • python命令 -u参数用法解析

    python命令 -u参数用法解析

    这篇文章主要介绍了python命令 -u参数用法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-10-10
  • 从Pyspark UDF调用另一个自定义Python函数的方法步骤

    从Pyspark UDF调用另一个自定义Python函数的方法步骤

    PySpark,通常称为Apache Spark的Python API,是为分布式数据处理而创建的,使用UDF,可以扩展和定制 PySpark 的功能以满足某些需求,在本文中,我们将学习如何从Pyspark UDF调用另一个自定义Python函数,需要的朋友可以参考下
    2023-11-11
  • Python中re正则匹配数据的实现

    Python中re正则匹配数据的实现

    在Python中,可以使用re模块来使用正则表达式,本文主要介绍了Python中re正则匹配数据的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2024-04-04
  • 详解Python中的数据精度问题

    详解Python中的数据精度问题

    这篇文章主要为大家详细介绍了Python中常常遇到的一些数据精度问题以及它们的解决方法,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一下
    2022-10-10
  • python-docx 页面设置详解

    python-docx 页面设置详解

    今天小编就为大家分享一篇python docx 中页面的设置,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-10-10
  • 详解Python之unittest单元测试代码

    详解Python之unittest单元测试代码

    本篇文件主要介绍了详解Python之unittest测试代码,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-01-01
  • python爬虫之scrapy框架详解

    python爬虫之scrapy框架详解

    这篇文章主要为大家介绍了python爬虫之scrapy框架,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2021-11-11
  • Pytorch 中的optimizer使用说明

    Pytorch 中的optimizer使用说明

    这篇文章主要介绍了Pytorch 中的optimizer使用说明,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03
  • Python中语音转文字相关库介绍(最新推荐)

    Python中语音转文字相关库介绍(最新推荐)

    Python的speech_recognition库是一个用于语音识别的Python包,它可以使Python程序能够识别和翻译来自麦克风、音频文件或网络流的语音,这篇文章主要介绍了Python中语音转文字相关库介绍,需要的朋友可以参考下
    2023-05-05
  • 利用Python绘制随机游走图的详细过程

    利用Python绘制随机游走图的详细过程

    随机游走(random walk)也称随机漫步,随机行走等,是以随机的方式采取连续步骤的过程,下面这篇文章主要给大家介绍了关于利用Python绘制随机游走图的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2024-02-02

最新评论