Python的爬虫框架scrapy用21行代码写一个爬虫

 更新时间:2017年04月24日 08:34:17   作者:凌霄  
最近在学习Python的爬虫框架scrapy,通过爬取线报网站后发现整个过程还是挺值得学习的,所以下面这篇文章主要就给大家介绍了Python的爬虫框架scrapy利用21行代码写一个爬虫的相关资料,需要的朋友可以参考借鉴,下面来一起看看吧。

开发说明

开发环境:Pycharm 2017.1(目前最新)

开发框架:Scrapy 1.3.3(目前最新)

目标

爬取线报网站,并把内容保存到items.json里

页面分析


根据上图我们可以发现内容都在类为post这个div里

下面放出post的代码

<div class="post">
<!-- baidu_tc block_begin: {"action": "DELETE"} -->
<div class="date"><span>04月</span><span class="f">07日</span></div><!-- baidu_tc block_end -->
<h2><a href="http://www.abckg.com/193.html" rel="external nofollow" title="4月7日 淘金币淘里程领取京东签到" rel="bookmark" target="_blank">4月7日 淘金币淘里程领取京东签到</a><span>已结束</span></h2>
<h6>发布日期: 2017-04-07 | 分类: <a href="http://www.abckg.com/xunibi" rel="external nofollow" >虚拟币</a> | 浏览:125177
</h6><div class="intro"><p>淘金币一键领取 http://021.tw/t/ https://www.chaidu.com/App/Web/Taobao-Coin/ 【电脑端30金币】 https://taojinbi.taobao.com/inde ... auto_take=true 【手机端30金币】 http://h5.m.taobao...</p></div></div>

实现方法

1、定义items

class DemoItem(scrapy.Item):
 id = scrapy.Field()
 title = scrapy.Field()
 href = scrapy.Field()
 content = scrapy.Field()

2、新建一个爬虫名为test

# -*- coding: utf-8 -*-
import scrapy
from demo.items import DemoItem
from scrapy.http import Request
class TestSpider(scrapy.Spider):
 #定义爬虫的名字和需要爬取的网址
 name = "test"
 allowed_domains = ["www.abckg.com"]
 start_urls = ['http://www.abckg.com/']
 def parse(self, response):
 for resp in response.css('.post'):
  #实例化item
  item = DemoItem()
  #把获取到的内容保存到item内
  item['href'] = resp.css('h2 a::attr(href)').extract()
  item['title'] = resp.css('h2 a::text').extract()
  item['content'] = resp.css('.intro p::text').extract()
  yield item
  
 #下面是多页面的爬取方法
 urls = response.css('.pageinfo a::attr(href)').extract()
 for url in urls:
  yield Request(url, callback=self.parse)
 categorys = response.css('.menu li a::attr(href)').extract()
 for ct in categorys:
  yield Request(ct, callback=self.parse)

3、修改settings.py,添加以下代码

FEED_EXPORT_ENCODING = 'utf-8'

#运行

打开cmd输入

scrapy crawl test -o items.json

已知bug

如果多次运行该爬虫,不会覆盖原有的内容,而是追加数据(好像是scrapy的bug)

可拓展内容

     1、定时运行爬虫,当检查到网站更新时获取新数据并发邮件通知

     2、检测数据是否重复

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者使用python能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对脚本之家的支持。

相关文章

  • python flask web服务实现更换默认端口和IP的方法

    python flask web服务实现更换默认端口和IP的方法

    今天小编就为大家分享一篇python flask web服务实现更换默认端口和IP的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07
  • 如何关掉pycharm中的python console(图解)

    如何关掉pycharm中的python console(图解)

    本文通过图文并茂的形式给大家介绍了如何关掉pycharm中的python console,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-10-10
  • Python深入学习之对象的属性

    Python深入学习之对象的属性

    这篇文章主要介绍了Python深入学习之对象的属性,本文从较深的层次讲解对象属性的内部运行方式,需要的朋友可以参考下
    2014-08-08
  • python中的装饰器该如何使用

    python中的装饰器该如何使用

    装饰器经常被用于有切面需求的场景,较为经典的有插入日志、性能测试、事务处理等。装饰器是解决这类问题的绝佳设计,有了装饰器,我们就可以抽离出大量函数中与函数功能本身无关的雷同代码并继续重用。装饰器的作用就是为已经存在的对象添加额外的功能。
    2021-06-06
  • 三步解决python PermissionError: [WinError 5]拒绝访问的情况

    三步解决python PermissionError: [WinError 5]拒绝访问的情况

    这篇文章主要介绍了三步解决python PermissionError: [WinError 5]拒绝访问的情况,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04
  • matplotlib实现自定义散点形状marker的3种方法

    matplotlib实现自定义散点形状marker的3种方法

    本文主要介绍了matplotlib实现自定义散点形状marker的3种方法,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-10-10
  • Python编写nmap扫描工具

    Python编写nmap扫描工具

    NMAP是一款开源的网络探测和安全审核的工具,今天我们用python的模拟实现一个简单版本的端口扫描工具,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-07-07
  • python自定义异常类方式

    python自定义异常类方式

    这篇文章主要介绍了python自定义异常类方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-08-08
  • Python学习笔记基本数据结构之序列类型list tuple range用法分析

    Python学习笔记基本数据结构之序列类型list tuple range用法分析

    这篇文章主要介绍了Python学习笔记基本数据结构之序列类型list tuple range用法,结合具体实例形式分析了Python序列类型list tuple range基本概念、定义与使用技巧,需要的朋友可以参考下
    2019-06-06
  • YOLOV5超参数介绍以及优化策略

    YOLOV5超参数介绍以及优化策略

    yolov5提供了一种超参数优化的方法,这篇文章主要给大家介绍了关于YOLOV5超参数介绍以及优化策略的相关资料,文中通过实例代码介绍的非常详细,对大家的学习或工具有一定的参考学习价值,需要的朋友可以参考下
    2022-09-09

最新评论