Python爬虫XPath解析出乱码的问题及解决

 更新时间:2024年05月24日 15:32:27   作者:平人的进步日常  
这篇文章主要介绍了Python爬虫XPath解析出乱码的问题及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教

Python爬虫XPath解析出乱码

请求后加上编码

resp = requests.get(url, headers=headers)
resp.encoding = 'GBK'

Python XPath解析html出现⋆解决方法 html出现{

爬网页又遇到一个坑,老是出现a乱码,查看html出现的是&#数字;这样的。

网上相关的“Python字符中出现&#的解决办法”又没有很好的解决,自己继续冲浪,费了一番功夫解决了。

这算是又加深了一下我对这些iso、Unicode编码的理解。故分享。

问题

用Python的lxml解析html时,调用text()输出出来的结果带有a这样的乱码:

网页原页面展示:

爬取代码:

url = "xxx"
 
response = requests.request("GET", url)
 
html = etree.HTML(response.text)
 
# 直接调用text函数
description = html.xpath('//div[@class="xxx"]/div/div//text()')
# 直接打印
for desc in description:
    print(desc)

原因

不用说自然是编码的问题。下面教大家排查和解决。

排查与解决

首先查看返回的响应是如何编码的:

response = requests.request("GET", url, proxies=proxy)
# 得到响应之后,先检查一下它的编码方式
print(response.encoding)

结果如下:

然后根据这个编码的方式再来解码:

html = etree.HTML(response.text)
 
description = html.xpath('//div[@class="xxx"]/div/div//text()')
 
for desc in description:
    # print(desc)
    # 根据上面的结果,用iso88591来编码,再解码为utf-8
    print(desc.encode("ISO-8859-1").decode("utf-8"))

结果如下:

完整代码:

url = "xxx"
 
response = requests.request("GET", url)
print(response.encoding)
 
html = etree.HTML(response.text)
 
description = html.xpath('//div[@class="xxx"]/div/div//text()')
 
for desc in description:
    print(desc.encode("ISO-8859-1").decode("utf-8"))
    # print(desc)

总结

网上有用python2流传下来的HTMLParser的,还有用python3的html包的,效果都不好。

不过也有改response的编码方式的,就是这样:

url = "xxx"
 
response = requests.request("GET", url)
 
# html = etree.HTML(response.text)
html = etree.HTML(response.content)  # 改用二进制编码
 
# 直接调用text函数
description = html.xpath('//div[@class="xxx"]/div/div//text()')
# 直接打印
for desc in description:
    print(desc)

也能成功解析。

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python Pygame实战之飞机大战的实现

    Python Pygame实战之飞机大战的实现

    飞机大战想必是很多人童年时期的经典游戏,这篇文章主要给大家介绍了关于如何利用python中的Pygame模块写一个简单的飞机大战小游戏的相关资料,需要的朋友可以参考下
    2022-03-03
  • Python实现飞机大战项目

    Python实现飞机大战项目

    这篇文章主要为大家详细介绍了Python实现飞机大战项目,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-07-07
  • matplotlib实战之饼图绘制详解

    matplotlib实战之饼图绘制详解

    饼图,或称饼状图,是一个划分为几个扇形的圆形统计图表,这篇文章主要为大家详细介绍了如何使用Matplotlib绘制饼图,需要的小伙伴可以参考下
    2023-08-08
  • python生成png的方法

    python生成png的方法

    本文主要介绍了python生成png的方法,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-10-10
  • pandas提升计算效率的一些方法汇总

    pandas提升计算效率的一些方法汇总

    理解 pandas 的函数,要对函数式编程有一定的概念和理解,下面这篇文章主要给大家介绍了关于pandas提升计算效率的相关资料,需要的朋友可以参考下
    2021-05-05
  • Python学习笔记之While循环用法分析

    Python学习笔记之While循环用法分析

    这篇文章主要介绍了Python学习笔记之While循环用法,结合具体实例形式分析了while循环的原理、用法及相关操作注意事项,需要的朋友可以参考下
    2019-08-08
  • 深度学习小工程练习之tensorflow垃圾分类详解

    深度学习小工程练习之tensorflow垃圾分类详解

    这篇文章主要介绍了练习深度学习的一个小工程,代码简单明确,用来作为学习深度学习的练习很适合,对于有需要的朋友可以参考下,希望大家可以体验到深度学习带来的收获
    2021-04-04
  • Python使用Tkinter打造一个完整的桌面应用

    Python使用Tkinter打造一个完整的桌面应用

    在Python生态中,Tkinter就像一把瑞士军刀,它没有花哨的特效,却能快速搭建出实用的图形界面,作为Python自带的标准库,无需安装即可使用,这种“开箱即用”的特性让它成为新手入门GUI开发的首选,本文将通过构建一个完整的记事本应用,带你领略Tkinter的实用魅力
    2025-06-06
  • pycharm日志总是弹出“无法运行Git,未安装Git”的问题

    pycharm日志总是弹出“无法运行Git,未安装Git”的问题

    这篇文章主要介绍了pycharm日志总是弹出“无法运行Git,未安装Git”的问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-06-06
  • python之从文件读取数据到list的实例讲解

    python之从文件读取数据到list的实例讲解

    下面小编就为大家分享一篇python之从文件读取数据到list的实例讲解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04

最新评论