python-xpath获取html文档的部分内容

 更新时间:2020年03月06日 09:49:21   作者:带鱼工作室  
这篇文章主要介绍了python-xpath获取html文档的部分内容,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

有些时候我在们需要的用正则提取出html中某一个部分的文字内容,如图:

获取dd部分的html文档,我们要通过它的一个属性去确定他的位置才可以拿到他这个部分我们可以看到他的这个属性class='row clearfix ',然后用xpath去获取到这部分:

name = tree.xpath("//dd[@class='row clearfix ']")
from lxml import html
import requests
url = 'http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04&pykm=DZXU&pageIdx=0&pcode=CJFD'
res = requests.get(url)
tree = html.fromstring(res.text)
name = tree.xpath("//dd[@class='row clearfix ']")
print(name)

如果直接打印他是不能够出来的,

我们需要对Element进行处理,用到name1 = html.tostring(name[0]),代码如下:

from lxml import html
import requests
url = 'http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04&pykm=DZXU&pageIdx=0&pcode=CJFD'
res = requests.get(url)
tree = html.fromstring(res.text)
name = tree.xpath("//dd[@class='row clearfix ']")
name1 = html.tostring(name[0])
print(name1)

打印截图:

但是大家可以看到里面的等内容并不是中文,原因是我们使用tostring方法输出的是修正后的HTML代码,但是结果是bytes类型,在python中bytes类型是不可以进行编码的,需要转换成字符串,使用代码name1.decode(),此时我们将bytes类型转换为str(字符串)类型。

那么此时我们关键是如何将$#26080;此类的符号转换成汉字!!!那么首先要搞清楚这是什么编码?这类符号是HTML、XML 等 SGML 类语言的转义序列。它们不是”编码“,也就是说我们不能使用utf-8、gbk等编码进行处理,需要使用HTMLParse进行处理,完整代码如下:

from lxml import html
import requests
from html.parser import HTMLParser #导入html解析库
url = 'http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04&pykm=DZXU&pageIdx=0&pcode=CJFD'
res = requests.get(url)
tree = html.fromstring(res.text)
name = tree.xpath("//dd[@class='row clearfix ']")
name1 = html.tostring(name[0])
name2 = HTMLParser().unescape(name1.decode())
print(name2)

此时运行结果如下:

那么此时就已经大功告成了!!!

以上这篇python-xpath获取html文档的部分内容就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python内置数据类型list各方法的性能测试过程解析

    Python内置数据类型list各方法的性能测试过程解析

    这篇文章主要介绍了Python内置数据类型list各方法的性能测试过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-01-01
  • 定制FileField中的上传文件名称实例

    定制FileField中的上传文件名称实例

    下面小编就为大家带来一篇定制FileField中的上传文件名称实例。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-08-08
  • python跳出双层for循环的解决方法

    python跳出双层for循环的解决方法

    今天小编就为大家分享一篇python跳出双层for循环的解决方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • python演示解答正则为什么是最强文本处理工具

    python演示解答正则为什么是最强文本处理工具

    正则表达式又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本,它是最强的文本处理工具,至于原因本文将给你答案
    2021-09-09
  • 如何利用PyQt5制作一个简单的登录界面

    如何利用PyQt5制作一个简单的登录界面

    初学者制作登录界面时常遇到网上代码看不懂、不会用、用不了的问题,下面这篇文章主要给大家介绍了关于如何利用PyQt5制作一个简单的登录界面,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-06-06
  • python常见排序算法基础教程

    python常见排序算法基础教程

    这篇文章主要为大家详细介绍了python算法的基础教程,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-04-04
  • Anaconda使用IDLE的实现示例

    Anaconda使用IDLE的实现示例

    这篇文章主要介绍了Anaconda使用IDLE的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-09-09
  • python中@contextmanager装饰器的用法详解

    python中@contextmanager装饰器的用法详解

    这篇文章主要介绍了python中@contextmanager装饰器的用法详解,@contextmanager 的作用就是我们可以把一个非自定义类改成一个上下文管理器,需要的朋友可以参考下
    2023-07-07
  • Python调用本地大模型实现Excel表格数据匹配与填充

    Python调用本地大模型实现Excel表格数据匹配与填充

    这篇文章主要为大家详细介绍了Python如何调用本地大模型实现Excel表格数据匹配与填充功能,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下
    2025-05-05
  • Python解决走迷宫问题算法示例

    Python解决走迷宫问题算法示例

    这篇文章主要介绍了Python解决走迷宫问题算法,结合实例形式分析了Python基于二维数组的深度优先遍历算法解决走迷宫问题相关操作技巧,需要的朋友可以参考下
    2018-07-07

最新评论