Python使用scrapy抓取网站sitemap信息的方法

更新时间：2015年04月08日 09:46:40 作者：pythoner

这篇文章主要介绍了Python使用scrapy抓取网站sitemap信息的方法,涉及Python框架scrapy的使用技巧,具有一定参考借鉴价值,需要的朋友可以参考下

本文实例讲述了Python使用scrapy抓取网站sitemap信息的方法。分享给大家供大家参考。具体如下：

import re
from scrapy.spider import BaseSpider
from scrapy import log
from scrapy.utils.response import body_or_str
from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
class SitemapSpider(BaseSpider):
 name = "SitemapSpider"
 start_urls = ["http://www.domain.com/sitemap.xml"]
 def parse(self, response):
  nodename = 'loc'
  text = body_or_str(response)
  r = re.compile(r"(<%s[\s>])(.*?)(</%s>)"%(nodename,nodename),re.DOTALL)
  for match in r.finditer(text):
   url = match.group(2)
   yield Request(url, callback=self.parse_page)
 def parse_page(self, response):
    hxs = HtmlXPathSelector(response)
    #Mock Item
  blah = Item()
  #Do all your page parsing and selecting the elemtents you want
    blash.divText = hxs.select('//div/text()').extract()[0]
  yield blah

希望本文所述对大家的Python程序设计有所帮助。

您可能感兴趣的文章:

Python 正则表达式操作指南
本文是通过Python的 re 模块来使用正则表达式的一个入门教程，和库参考手册的对应章节相比，更为浅显易懂、循序渐进。
2009-05-05
python入门for循环嵌套理解学习
这篇文章主要介绍了python入门关于for循环嵌套的理解学习，希望大家可以学会并运用到日常工作中，有需要的朋友可以借鉴参考下，希望能够有帮助
2021-09-09
详解Python matplotlib中的色彩使用详解
matplotlib中提供了一些常见颜色的字符串，并封装成了几个颜色字典，这篇文章主要来和大家讲解一下matplotlib中的色彩使用，需要的可以参考一下
2023-07-07
python判断所输入的任意一个正整数是否为素数的两种方法
今天小编就为大家分享一篇python判断所输入的任意一个正整数是否为素数的两种方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-06-06
opencv之颜色过滤只留下图片中的红色区域操作
这篇文章主要介绍了opencv之颜色过滤只留下图片中的红色区域操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-06-06
Python实现八大排序算法
这篇文章主要介绍了Python实现八大排序算法,如何用Python实现八大排序算法，感兴趣的小伙伴们可以参考一下
2016-08-08
jupyter notebook 自定义python解释器的过程详解
大家都知道jupyter notebook 网页版交互环境，类似于ipython，功能强大，这篇文章主要介绍了jupyter notebook 自定义python解释器的过程,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2022-10-10
使用Matplotlib创建基本图表的详细指南
Matplotlib 是一个功能强大的 Python 库,用于创建各种类型的图表和可视化,在本文中,我们将提供一个完整的指南,介绍如何使用 Matplotlib 创建基本的图表,包括折线图、散点图、柱状图和饼图,感兴趣的小伙伴跟着小编一起来看看吧
2024-05-05
Django框架安装方法图文详解
这篇文章主要介绍了Django框架安装方法,结合图文与实例形式详细分析了Django框架的下载、安装简单使用方法及相关操作注意事项,需要的朋友可以参考下
2019-11-11
Python/ArcPy遍历指定目录中的MDB文件方法
今天小编就为大家分享一篇Python/ArcPy遍历指定目录中的MDB文件方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-10-10

Python使用scrapy抓取网站sitemap信息的方法

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具