Python爬虫之xlml解析库(全面了解)

 更新时间:2017年08月08日 08:39:51   投稿:jingxian  
下面小编就为大家带来一篇Python爬虫之xlml解析库(全面了解)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧

1.Xpath

Xpath是一门在XML中查找信息的语言,可用来在XML文档中对元素和属性进行遍历。XQuery和xpoint都是构建于xpath表达之上

2.节点

父(parent),子(children),兄弟(sibling),先辈(ancetstor),后代(Decendant)

3.选取节点

路径表达式

表达式 描述 路径表达式 结果
nodename 选取此节点上的所有的子节点 bookstore 选取bookstore元素的所有子节点
/ 从根节点上选取 /bookstore 选取根元素bookstore,为绝对路径
// 从匹配选择的当前节点选择文档中的节点,不考虑位置 //book 选取所有的book子元素,而不管他们在文档的位置
. 选取当前节点 bookstore//book 选择bookstore后代中所有的book元素
.. 选取当前节点的父节点
@ 选取属性 //@lang 选取名为lang的所有属性

谓语

  谓语用来查找某个特定的节点或者包含某个指定的值的节点

  谓语被嵌在方括号中

路径表达式 结果
/bookstore/book[1] 选取属于bookstore子元素的第一个book元素
/bookstore/book[last()] 选取属于bookstore子元素的最后book元素
/bookstore/book[last()-1] 选取属于bookstore子元素的倒数第二个book元素
/bookstore/book[position()<3] 选取最前面的两个属于bookstore元素的子元素的book元素
//title[@lang='eng'] 选取所有的title元素,并且这些元素拥有值为eng的lang属性
/bookstore/book[price>35.0] 选取bookstore元素的所有book元素,且其中的price值大于35.0

选取未知节点(通配符)

*  匹配任何 元素节点

@*  匹配任何属性节点

node()  匹配任何类型的节点

4.lxml用法

#!/usr/bin/python
#_*_coding:utf-8_*_

from lxml import etree

text='''
<div>
 <ul>
  <li class="item-0"><a href="link1.html" rel="external nofollow" rel="external nofollow" >first item</a></li>
  <li class="item-1"><a href="link2.html" rel="external nofollow" >second item</a></li>
  <li class="item-inactive"><a href="link3.html" rel="external nofollow" >third item</a></li>
  <li class="item-1"><a href="link4.html" rel="external nofollow" >fourth item</a></li>
  <li class="item-0"><a href="link5.html" rel="external nofollow" >fifth item</a>
 </ul>
</div>
  '''

# html=etree.HTML(text) #html对象,存储在地址中,有自动修正功能
# result=etree.tostring(html) #将html对象转化为字符串

html=etree.parse('hello.html')
# result=etree.tostring(html,pretty_print=True)
# print result
print type(html)
result= html.xpath('//li')
print result
print len(result)
print type(result)
print type(result[0])
print html.xpath('//li/@class') # 获取li标签下的所有的class
print html.xpath('//li/a[@href="link1.html" rel="external nofollow" rel="external nofollow" ]') #获取li标签下href为link1的<a>标签
print html.xpath('//li//span') #获取li标签下所有的span标签
print html.xpath('//li[last()-1]/a')[0].text #获取倒数第二个元素的内容

以上这篇Python爬虫之xlml解析库(全面了解)就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • python 决策树算法的实现

    python 决策树算法的实现

    这篇文章主要介绍了python 决策树算法的实现,帮助大家更好的理解和使用python 机器学习算法,感兴趣的朋友可以了解下
    2020-10-10
  • Python绘制可以表示点密度的散点图得方法

    Python绘制可以表示点密度的散点图得方法

    本文介绍基于Python语言的matplotlib模块,对Excel表格文件中的指定数据,加以密度散点图绘制的方法,文中有相关的代码示例供大家参考,需要的朋友可以参考下
    2024-05-05
  • Pycharm中配置远程Docker运行环境的教程图解

    Pycharm中配置远程Docker运行环境的教程图解

    这篇文章主要介绍了Pycharm中配置远程Docker运行环境,本文通过图文并茂的形式给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-06-06
  • Python3实现Web网页图片下载

    Python3实现Web网页图片下载

    这篇文章主要介绍了Python3通过request.urlopen实现Web网页图片下载,感兴趣的小伙伴们可以参考一下
    2016-01-01
  • 使用PyCharm和venv进行Python项目环境配置避坑指南

    使用PyCharm和venv进行Python项目环境配置避坑指南

    在进行 Python 项目开发时,一个干净,隔离且配置正确的开发环境至关重要,本文结合之前安装 Vanna 库时遇到的问题,总结了使用 PyCharm 和 venv 进行 Python 项目环境设置的最佳实践和常见坑的解决方法,有需要的小伙伴可以参考下
    2025-04-04
  • 使用APScheduler3.0.1 实现定时任务的方法

    使用APScheduler3.0.1 实现定时任务的方法

    今天小编就为大家分享一篇使用APScheduler3.0.1 实现定时任务的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07
  • Python删除指定目录下过期文件的2个脚本分享

    Python删除指定目录下过期文件的2个脚本分享

    这篇文章主要介绍了Python删除指定目录下过期文件2个脚本分享,可以用在如删除指定日期前的日志文件,需要的朋友可以参考下
    2014-04-04
  • Python使用gensim计算文档相似性

    Python使用gensim计算文档相似性

    在文本处理中,比如商品评论挖掘,有时需要了解每个评论分别和商品的描述之间的相似度,以此衡量评论的客观性。那么python 里面有计算文本相似度的程序包吗,恭喜你,不仅有,而且很好很强大。下面我们就来体验下gensim的强大
    2016-04-04
  • Python 中OS module的使用详解

    Python 中OS module的使用详解

    这篇文章主要介绍了Python 中OS module的使用详解,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-03-03
  • 详细解析Python当中的数据类型和变量

    详细解析Python当中的数据类型和变量

    这篇文章主要介绍了Python当中的数据类型和变量,是Python学习当中的基础知识,需要的朋友可以参考下
    2015-04-04

最新评论