python抓取多种类型的页面方法实例

 更新时间:2019年11月20日 15:18:48   投稿:laozhang  
在本篇文章里小编给大家整理的是关于python抓取多种类型的页面方法实例内容,有需要的朋友们可以学习下。

与抓取预定义好的页面集合不同,抓取一个网站的所有内链会带来一个 挑战,即你不知道会获得什么。好在有几种基本的方法可以识别页面类型。

通过URL

一个网站中所有的博客文章可能都会包含一个 URL(例如 http://example.com/blog/title-of-post)。

通过网站中存在或者缺失的特定字段

如果一个页面包含日期,但是不包含作者名字,那你可以将其归类 为新闻稿。如果它有标题、主图片、价格,但是没有主要内容,那么它 可能是一个产品页面。

通过页面中出现的特定标签识别页面

即使不抓取某个标签内的数据,你仍然可以利用这个标签。你的爬 虫可以寻找类似于 <div id="related-products"> 这样的元素来识 别产品页面,即便是爬虫对相关产品的内容并不感兴趣。

为了跟踪多个页面类型,你需要在 Python 中有多个类型的页面对象。 这通过两种方式来实现。

如果页面都是相似的(它们基本上都是相同类型的内容),你可能需要 在现有的网页对象中加入一个 pageType 属性:

class Website:
"""所有文章/网页的共同基类"""
def __init__(self, type, name, url, searchUrl, resultListing,
resultUrl, absoluteUrl, titleTag, bodyTag):
self.name = name
self.url = url
self.titleTag = titleTag
self.bodyTag = bodyTag
self.pageType = pageType

如果你在一个类 SQL 的数据库中对这些页面进行排序,这种模式类型 意味着这些页面应该被存放在同一张表中,并且加入一个额外的 pageType 列。

如果你抓取的页面或内容各不相同(它们包含不同类型的字段),就需 要为每个页面类型创建一个新的对象。当然,有些东西是所有网页共有 的——它们都有一个 URL,也可能都有一个名称或者页面标题。这种 情况非常适合用子类:

class Website:
"""所有文章/网页的共同基类"""

def __init__(self, name, url, titleTag):
self.name = name
self.url = url
self.titleTag = titleTag

这不是一个由你的爬虫直接使用的对象,而是将被你的页面类型引用的 对象:

class Product(Website):
"""产品页面要抓取的信息"""
def __init__(self, name, url, titleTag, productNumber, price):    
Website.__init__(self, name, url, TitleTag)
self.productNumberTag = productNumberTag
self.priceTag = priceTag
class Article(Website):
"""文章页面要抓取的信息"""
def __init__(self, name, url, titleTag, bodyTag, dateTag):
Website.__init__(self, name, url, titleTag)
self.bodyTag = bodyTag
self.dateTag = dateTag

这个产品页面扩展了Website基类,并且加入了仅适用于产品的productNumber和price属性,而Article类加入了body和date属性,这两个属性是不适用于产品的。

你可以用这两个类去抓取一个商店网站,该网站除了产品,可能还包含博客文章或新闻稿。

希望以上知识点能够帮助到大家,感谢大家对脚本之家的支持。

相关文章

  • python淘宝抢购脚本程序实现

    python淘宝抢购脚本程序实现

    大家好,本篇文章主要讲的是python淘宝抢购脚本程序实现,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下
    2022-02-02
  • python 调用Google翻译接口的方法

    python 调用Google翻译接口的方法

    这篇文章主要介绍了python 调用Google翻译接口的方法,帮助大家更好的理解和使用python处理url,感兴趣的朋友可以了解下
    2020-12-12
  • 一个月入门Python爬虫学习,轻松爬取大规模数据

    一个月入门Python爬虫学习,轻松爬取大规模数据

    利用爬虫我们可以获取大量的价值数据,从而获得感性认识中不能得到的信息,这篇文章给大家带来了一个月入门Python学习,爬虫轻松爬取大规模数据,感兴趣的朋友一起看看吧
    2018-01-01
  • pandas报错AttributeError: DataFrame object has no attribute ix问题

    pandas报错AttributeError: DataFrame object has&

    这篇文章主要介绍了pandas报错AttributeError: DataFrame object has no attribute ix问题及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-02-02
  • slearn缺失值处理器之Imputer详析

    slearn缺失值处理器之Imputer详析

    这篇文章主要给大家介绍了关于slearn缺失值处理器之Imputer的相关资料,文中通过实例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2022-08-08
  • Flask中特殊装饰器的使用

    Flask中特殊装饰器的使用

    本文主要介绍了Flask中特殊装饰器的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-02-02
  • 用Python写一个模拟qq聊天小程序的代码实例

    用Python写一个模拟qq聊天小程序的代码实例

    今天小编就为大家分享一篇关于用Python写一个模拟qq聊天小程序的代码实例,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2019-03-03
  • Python实现随机森林RF模型超参数的优化详解

    Python实现随机森林RF模型超参数的优化详解

    这篇文章主要为大家详细介绍了基于Python的随机森林(Random Forest,RF)回归代码,以及模型超参数(包括决策树个数与最大深度、最小分离样本数、最小叶子节点样本数、最大分离特征数等)自动优化的代码,感兴趣的小伙伴可以了解一下
    2023-02-02
  • Python实现实时显示进度条的六种方法

    Python实现实时显示进度条的六种方法

    这篇文章主要为大家介绍了Python实现实时显示进度条,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助<BR>
    2021-12-12
  • Python爬虫获取op.gg英雄联盟英雄对位胜率的源码

    Python爬虫获取op.gg英雄联盟英雄对位胜率的源码

    这篇文章主要介绍了Python爬虫获取op.gg英雄联盟英雄对位胜率,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-01-01

最新评论