Python爬虫基于lxml解决数据编码乱码问题

 更新时间:2020年07月31日 08:30:58   作者:This_is_Y  
这篇文章主要介绍了Python爬虫基于lxml解决数据编码乱码问题,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高

XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言,它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索

XPath的选择功能十分强大,它提供了非常简明的路径选择表达式,另外,它还提供了超过100个内建函数,用于字符串、数值、时间的匹配以及节点、序列的处理等,几乎所有我们想要定位的节点,都可以用XPath来选择

XPath于1999年11月16日成为W3C标准,它被设计为供XSLT、XPointer以及其他XML解析软件使用,更多的文档可以访问其官方网站:https://www.w3.org/TR/xpath/

问题状况:

response = requests.get(url=url, headers=headers).text
html = etree.HTML(response)
name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0]
print(name)

可以正常获取数据,但是结果是

已验证 安全 盾牌

这样子的乱码

解决方法:

name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0].encode('ISO-8859-1').decode('UTF-8')

这边的UTF-8根据网页编码情况而定

看网页编码情况

F12

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • pytorch中如何使用DataLoader对数据集进行批处理的方法

    pytorch中如何使用DataLoader对数据集进行批处理的方法

    这篇文章主要介绍了pytorch中如何使用DataLoader对数据集进行批处理的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-08-08
  • Python二分查找+字符串模板+textwrap模块,

    Python二分查找+字符串模板+textwrap模块,

    这篇文章主要介绍了Python二分查找+字符串模板+textwrap模块,文章围绕主题展开详细内容,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-05-05
  • 将Jupyter Notebook(.ipynb)文件转换为Python(.py)文件的3种方法

    将Jupyter Notebook(.ipynb)文件转换为Python(.py)文件的3种方法

    大多数数据科学在线课程都把Jupyter Notebook作为教学媒介,这是因为初学者在Jupyter Notebook的单元格中编写代码,比编写包含类和函数的脚本更容易,这篇文章主要给大家介绍了关于将Jupyter Notebook(.ipynb)文件转换为Python(.py)文件的3种方法,需要的朋友可以参考下
    2023-10-10
  • linux环境部署清华大学大模型最新版 chatglm2-6b 图文教程

    linux环境部署清华大学大模型最新版 chatglm2-6b 图文教程

    这篇文章主要介绍了linux环境部署清华大学大模型最新版 chatglm2-6b ,结合实例形式详细分析了Linux环境下chatglm2-6b部署相关操作步骤与注意事项,需要的朋友可以参考下
    2023-07-07
  • 对PyTorch torch.stack的实例讲解

    对PyTorch torch.stack的实例讲解

    今天小编就为大家分享一篇对PyTorch torch.stack的实例讲解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-07-07
  • Python中的几种矩阵乘法(小结)

    Python中的几种矩阵乘法(小结)

    这篇文章主要介绍了Python中的几种矩阵乘法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-07-07
  • Python 2种方法求某个范围内的所有素数(质数)

    Python 2种方法求某个范围内的所有素数(质数)

    这篇文章主要介绍了Python 2种方法求某个范围内的所有素数(质数),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-01-01
  • Python编写memcached启动脚本代码实例

    Python编写memcached启动脚本代码实例

    这篇文章主要介绍了Python编写memcached启动脚本代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-08-08
  • 如何使用python的subprocess执行命令、交互、等待、是否结束及解析JSON结果

    如何使用python的subprocess执行命令、交互、等待、是否结束及解析JSON结果

    这篇文章主要给大家介绍了关于如何使用python的subprocess执行命令、交互、等待、是否结束及解析JSON结果的相关资料,subprocess模块提供了一种简单的方法来创建和管理子进程,它可以让我们在Python程序中执行外部命令,获取命令的输出和错误信息,需要的朋友可以参考下
    2023-12-12
  • Python+Socket实现基于TCP协议的客户与服务端中文自动回复聊天功能示例

    Python+Socket实现基于TCP协议的客户与服务端中文自动回复聊天功能示例

    这篇文章主要介绍了Python+Socket实现基于TCP协议的客户与服务端中文自动回复聊天功能,结合实例形式分析了Python+Socket实现带自动回复功能的TCP聊天程序相关操作方法与注意事项,需要的朋友可以参考下
    2017-08-08

最新评论