Python自动检测requests所获得html文档的编码

 更新时间:2024年11月18日 11:12:46   作者:Humbunklung  
这篇文章主要为大家详细介绍了如何通过Python自动检测requests实现获得html文档的编码,文中的示例代码讲解详细,感兴趣的可以了解下

使用chardet库自动检测requests所获得html文档的编码

使用requests和BeautifulSoup库获取某个页面带来的乱码问题

使用requests配合BeautifulSoup库,可以轻松地从网页中提取数据。但是,当网页返回的编码格式与Python默认的编码格式不一致时,就会导致乱码问题。

以如下代码为例,它会获取到一段乱码的html:

import requests
from bs4 import BeautifulSoup

# 目标 URL
url = 'https://finance.sina.com.cn/realstock/company/sh600050/nc.shtml'

# 发送 HTTP GET 请求
response = requests.get(url)

# 检查请求是否成功
if response.status_code == 200:

    # 获取网页内容
    html_content = response.text
    
    # 使用 BeautifulSoup 解析 HTML 内容
    soup = BeautifulSoup(html_content, 'html.parser')
    
    # 要查找的 ID
    target_id = 'hqDetails'
    
    # 查找具有特定 ID 的标签
    element = soup.find(id=target_id)
    
    if element:
        # 获取该标签下的 HTML 内容
        element_html = str(element)
        print(f"ID 为 {target_id} 的 HTML 内容:\n{element_html}\n")
        
        # 查找该标签下的所有 table 元素
        tables = element.find_all('table')
        
        if tables:
            for i, table in enumerate(tables):
                print(f"第 {i+1} 个 table 的 HTML 内容:\n{table}\n")
        else:
            print(f"ID 为 {target_id} 的标签下没有 table 元素")
    else:
        print(f"未找到 ID 为 {target_id} 的标签")
else:
    print(f"请求失败,状态码: {response.status_code}")

我们可以通过通过手工指定代码的方式来解决这个问题,例如在response.status_code == 200后,通过response.encoding = 'utf-8'指定代码,又或通过soup = BeautifulSoup(html_content, 'html.parser', from_encoding='utf-8') 来指定编码。

然而,当我们获取的html页面编码不确定的时候,有没有更好的办法让编码监测自动执行呢?这时候chardet编码监测库是一个很好的帮手。

使用 chardet 库自动检测编码

chardet 是一个用于自动检测字符编码的库,可以更准确地检测响应的编码。

安装chardet库

pip install chardet

代码应用示例

import requests
from bs4 import BeautifulSoup
import chardet

# 目标 URL
url = 'https://finance.sina.com.cn/realstock/company/sh600050/nc.shtml'

# 发送 HTTP GET 请求
response = requests.get(url)

# 检查请求是否成功
if response.status_code == 200:
    # 自动检测字符编码
    detected_encoding = chardet.detect(response.content)['encoding']
    
    # 设置响应的编码
    response.encoding = detected_encoding

    # 获取网页内容
    html_content = response.text
    
    # 使用 BeautifulSoup 解析 HTML 内容
    soup = BeautifulSoup(html_content, 'html.parser')
    
    # 要查找的 ID
    target_id = 'hqDetails'
    
    # 查找具有特定 ID 的标签
    element = soup.find(id=target_id)
    
    if element:
        # 获取该标签下的 HTML 内容
        element_html = str(element)
        print(f"ID 为 {target_id} 的 HTML 内容:\n{element_html}\n")
        
        # 查找该标签下的所有 table 元素
        tables = element.find_all('table')
        
        if tables:
            for i, table in enumerate(tables):
                print(f"第 {i+1} 个 table 的 HTML 内容:\n{table}\n")
        else:
            print(f"ID 为 {target_id} 的标签下没有 table 元素")
    else:
        print(f"未找到 ID 为 {target_id} 的标签")
else:
    print(f"请求失败,状态码: {response.status_code}")

可见,通过使用chardet库,可以有效实现代码的自动检测。

以上就是Python自动检测requests所获得html文档的编码的详细内容,更多关于Python检测requests获得html文档编码的资料请关注脚本之家其它相关文章!

相关文章

  • 详解如何优雅的用PyQt访问http

    详解如何优雅的用PyQt访问http

    这篇文章主要我打开详细介绍了如何优雅的用PyQt实现访问http,文中的示例代码讲解详细,具有一定的借鉴价值,感兴趣的小伙伴可以了解下
    2024-11-11
  • 使用python实现strcmp函数功能示例

    使用python实现strcmp函数功能示例

    这篇文章主要介绍了使用python实现strcmp函数功能的示例,需要的朋友可以参考下
    2014-03-03
  • 基于Python3编写一个GUI翻译器

    基于Python3编写一个GUI翻译器

    PySimpleGUI就是GUI工具包,用于创建GUI的。本文将利用PySimpleGUI编写一个GUI翻译器,感兴趣的小伙伴可以跟随小编一起动手尝试一下
    2022-08-08
  • 通过代码实例了解Python sys模块

    通过代码实例了解Python sys模块

    这篇文章主要介绍了通过代码实例了解Python sys模块,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-09-09
  • 一起来了解python的基本输入和输出

    一起来了解python的基本输入和输出

    这篇文章主要为大家详细介绍了python的基本输入和输出,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2022-02-02
  • 在python中解决死锁的问题

    在python中解决死锁的问题

    这篇文章主要介绍了在python中解决死锁的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-04-04
  • 教你Pycharm安装使用requests第三方库的详细教程

    教你Pycharm安装使用requests第三方库的详细教程

    PyCharm安装第三方库是十分方便的,无需pip或其他工具,平台就自带了这个功能而且操作十分简便,今天通过本文带领大家学习Pycharm安装使用requests第三方库的详细教程,感兴趣的朋友一起看看吧
    2021-07-07
  • Python中Yield的基本用法

    Python中Yield的基本用法

    这篇文章主要给大家介绍了关于Python中Yield的基本用法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-10-10
  • 详解python的几种标准输出重定向方式

    详解python的几种标准输出重定向方式

    这篇文章是基于Python2.7版本,介绍常见的几种标准输出(stdout)重定向方式。显然,这些方式也适用于标准错误重定向。学习python的小伙伴们可以参考借鉴。
    2016-08-08
  • 用Python制作灯光秀短视频的思路详解

    用Python制作灯光秀短视频的思路详解

    这篇文章主要介绍了用Python制作灯光秀短视频的思路详解,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧
    2021-04-04

最新评论