Python使用scrapy抓取网站sitemap信息的方法

 更新时间:2015年04月08日 09:46:40   作者:pythoner  
这篇文章主要介绍了Python使用scrapy抓取网站sitemap信息的方法,涉及Python框架scrapy的使用技巧,具有一定参考借鉴价值,需要的朋友可以参考下

本文实例讲述了Python使用scrapy抓取网站sitemap信息的方法。分享给大家供大家参考。具体如下:

import re
from scrapy.spider import BaseSpider
from scrapy import log
from scrapy.utils.response import body_or_str
from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
class SitemapSpider(BaseSpider):
 name = "SitemapSpider"
 start_urls = ["http://www.domain.com/sitemap.xml"]
 def parse(self, response):
  nodename = 'loc'
  text = body_or_str(response)
  r = re.compile(r"(<%s[\s>])(.*?)(</%s>)"%(nodename,nodename),re.DOTALL)
  for match in r.finditer(text):
   url = match.group(2)
   yield Request(url, callback=self.parse_page)
 def parse_page(self, response):
    hxs = HtmlXPathSelector(response)
    #Mock Item
  blah = Item()
  #Do all your page parsing and selecting the elemtents you want
    blash.divText = hxs.select('//div/text()').extract()[0]
  yield blah

希望本文所述对大家的Python程序设计有所帮助。

相关文章

  • Python 正则表达式操作指南

    Python 正则表达式操作指南

    本文是通过Python的 re 模块来使用正则表达式的一个入门教程,和库参考手册的对应章节相比,更为浅显易懂、循序渐进。
    2009-05-05
  • python入门for循环嵌套理解学习

    python入门for循环嵌套理解学习

    这篇文章主要介绍了python入门关于for循环嵌套的理解学习,希望大家可以学会并运用到日常工作中,有需要的朋友可以借鉴参考下,希望能够有帮助
    2021-09-09
  • 详解Python matplotlib中的色彩使用详解

    详解Python matplotlib中的色彩使用详解

    matplotlib中提供了一些常见颜色的字符串,并封装成了几个颜色字典,这篇文章主要来和大家讲解一下matplotlib中的色彩使用,需要的可以参考一下
    2023-07-07
  • python判断所输入的任意一个正整数是否为素数的两种方法

    python判断所输入的任意一个正整数是否为素数的两种方法

    今天小编就为大家分享一篇python判断所输入的任意一个正整数是否为素数的两种方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • opencv之颜色过滤只留下图片中的红色区域操作

    opencv之颜色过滤只留下图片中的红色区域操作

    这篇文章主要介绍了opencv之颜色过滤只留下图片中的红色区域操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-06-06
  • Python实现八大排序算法

    Python实现八大排序算法

    这篇文章主要介绍了Python实现八大排序算法,如何用Python实现八大排序算法,感兴趣的小伙伴们可以参考一下
    2016-08-08
  • jupyter notebook 自定义python解释器的过程详解

    jupyter notebook 自定义python解释器的过程详解

    大家都知道jupyter notebook 网页版交互环境,类似于ipython,功能强大,这篇文章主要介绍了jupyter notebook 自定义python解释器的过程,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-10-10
  • 使用Matplotlib创建基本图表的详细指南

    使用Matplotlib创建基本图表的详细指南

    Matplotlib 是一个功能强大的 Python 库,用于创建各种类型的图表和可视化,在本文中,我们将提供一个完整的指南,介绍如何使用 Matplotlib 创建基本的图表,包括折线图、散点图、柱状图和饼图,感兴趣的小伙伴跟着小编一起来看看吧
    2024-05-05
  • Django框架安装方法图文详解

    Django框架安装方法图文详解

    这篇文章主要介绍了Django框架安装方法,结合图文与实例形式详细分析了Django框架的下载、安装简单使用方法及相关操作注意事项,需要的朋友可以参考下
    2019-11-11
  • Python/ArcPy遍历指定目录中的MDB文件方法

    Python/ArcPy遍历指定目录中的MDB文件方法

    今天小编就为大家分享一篇Python/ArcPy遍历指定目录中的MDB文件方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-10-10

最新评论