Python的爬虫框架scrapy用21行代码写一个爬虫

更新时间：2017年04月24日 08:34:17 作者：凌霄

最近在学习Python的爬虫框架scrapy，通过爬取线报网站后发现整个过程还是挺值得学习的，所以下面这篇文章主要就给大家介绍了Python的爬虫框架scrapy利用21行代码写一个爬虫的相关资料，需要的朋友可以参考借鉴，下面来一起看看吧。

开发说明

开发环境:Pycharm 2017.1(目前最新)

开发框架:Scrapy 1.3.3(目前最新)

目标

爬取线报网站,并把内容保存到items.json里

页面分析

根据上图我们可以发现内容都在类为post这个div里

下面放出post的代码

<div class="post">
<!-- baidu_tc block_begin: {"action": "DELETE"} -->
<div class="date"><span>04月</span><span class="f">07日</span></div><!-- baidu_tc block_end -->
<h2><a href="http://www.abckg.com/193.html" rel="external nofollow" title="4月7日 淘金币淘里程领取京东签到" rel="bookmark" target="_blank">4月7日 淘金币淘里程领取京东签到</a><span>已结束</span></h2>
<h6>发布日期: 2017-04-07 | 分类: <a href="http://www.abckg.com/xunibi" rel="external nofollow" >虚拟币</a> | 浏览:125177
</h6><div class="intro"><p>淘金币一键领取 http://021.tw/t/ https://www.chaidu.com/App/Web/Taobao-Coin/ 【电脑端30金币】 https://taojinbi.taobao.com/inde ... auto_take=true 【手机端30金币】 http://h5.m.taobao...</p></div></div>

实现方法

1、定义items

class DemoItem(scrapy.Item):
 id = scrapy.Field()
 title = scrapy.Field()
 href = scrapy.Field()
 content = scrapy.Field()

2、新建一个爬虫名为test

# -*- coding: utf-8 -*-
import scrapy
from demo.items import DemoItem
from scrapy.http import Request
class TestSpider(scrapy.Spider):
 #定义爬虫的名字和需要爬取的网址
 name = "test"
 allowed_domains = ["www.abckg.com"]
 start_urls = ['http://www.abckg.com/']
 def parse(self, response):
 for resp in response.css('.post'):
  #实例化item
  item = DemoItem()
  #把获取到的内容保存到item内
  item['href'] = resp.css('h2 a::attr(href)').extract()
  item['title'] = resp.css('h2 a::text').extract()
  item['content'] = resp.css('.intro p::text').extract()
  yield item
  
 #下面是多页面的爬取方法
 urls = response.css('.pageinfo a::attr(href)').extract()
 for url in urls:
  yield Request(url, callback=self.parse)
 categorys = response.css('.menu li a::attr(href)').extract()
 for ct in categorys:
  yield Request(ct, callback=self.parse)

3、修改settings.py,添加以下代码

FEED_EXPORT_ENCODING = 'utf-8'

#运行

打开cmd输入

scrapy crawl test -o items.json

已知bug

如果多次运行该爬虫,不会覆盖原有的内容,而是追加数据(好像是scrapy的bug)

可拓展内容

1、定时运行爬虫,当检查到网站更新时获取新数据并发邮件通知

2、检测数据是否重复

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者使用python能带来一定的帮助，如果有疑问大家可以留言交流，谢谢大家对脚本之家的支持。

您可能感兴趣的文章:

浅析python 内置字符串处理函数的使用方法
这篇文章主要介绍了python 内置字符串处理函数的使用方法,需要的朋友可以参考下
2014-06-06
PyCharm接入DeepSeek实现AI编程的操作流程
DeepSeek 是一家专注于人工智能技术研发的公司,致力于开发高性能、低成本的 AI 模型,接下来,我们把DeepSeek接入到PyCharm中,并利用其能力辅助我们进行代码开发,感兴趣的小伙伴跟着小编一起来看看吧
2025-01-01
python变量数据类型和运算符
这篇文章主要介绍了python变量数据类型和运算符，不同类型的变量可以进行的运算是不同的，所以必须理解变量的类型，下面文章的更多相关内容介绍，需要的小伙伴可以参考一下
2022-07-07
Python结合Redis开发一个消息订阅系统
消息订阅是一种常见的通信模式,用于实现系统之间的解耦和异步通信,本文将详细介绍如何使用Python实现一个高效与可靠的消息订阅系统,有需要的可以了解下
2025-03-03
浅谈tensorflow 中的图片读取和裁剪方式
这篇文章主要介绍了浅谈tensorflow 中的图片读取和裁剪方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-06-06
Python OpenCV超详细讲解读取图像视频和网络摄像头
OpenCV用C++语言编写，它具有C ++，Python，Java和MATLAB接口，并支持Windows，Linux，Android和Mac OS，OpenCV主要倾向于实时视觉应用，并在可用时利用MMX和SSE指令，本篇文章带你了解OpenCV读取图像视频与网络摄像头的方法
2022-04-04
Python中模块的使用--binascii模块用法
这篇文章主要介绍了Python中模块的使用--binascii模块用法，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-05-05
python leetcode 字符串相乘实例详解
这篇文章主要介绍了python leetcode 字符串相乘的示例代码，非常不错，具有一定的参考借鉴价值,需要的朋友可以参考下
2018-09-09
python实现数据可视化超详细讲解
Python的数据可视化是将数据以图形或图表的形式呈现,使复杂的信息更易于理解和分析,本文给大家详细介绍了python数据可视化的实现,文中通过图文结合的方式介绍的非常详细,需要的朋友可以参考下
2024-06-06
Python对接支付宝支付自实现功能
这篇文章主要介绍了Python对接支付宝支付自实现功能,本文通过实例代码给大家介绍的非常详细，具有一定的参考借鉴价值，需要的朋友可以参考下
2019-10-10

Python的爬虫框架scrapy用21行代码写一个爬虫

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具