Python使用Selenium将网页保存为图片或PDF

 更新时间:2026年02月09日 09:27:00   作者:清山博客  
这篇文章主要为大家详细介绍了Python如何使用Selenium配合Pillow实现将网页保存为图片或PDF,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下

一、背景介绍

之前写过一篇将网页保存为图片的文章

C#利用WebBrowser将网页保存为图片

这里有个弊端,C# WebBrowser使用的是IE内核,目前很多网站都不支持IE了,所以需要找新的方案替代。 

二、Python实现

在Python中,一个常见的选择是使用Selenium配合Pillow将网页保存为图片。

第1步:安装Python环境。

如未安装,请参考从安装到应用全面掌握Python与OpenCV的配置与高级功能(最新推荐)

第2步:安装Selenium库。

如果你还没有安装它们,可以使用pip来安装:

打开windows命令行工具,输入以下命令:

pip install selenium pillow

第3步:下载Chrome浏览器、ChromeDriver

使用Selenium需要一个WebDriver,比如ChromeDriver。

注意:下载的ChromeDriver需与使用的Chrome浏览器版本保持一致。

下载完后,报存到电脑任一目录即可,如:

ChromeDriver官方下载地址可能打不开,可以使用华为提供的镜像。

Index of chromedriver-local 各个版本都有,找到与自己Chrome的版本一致,下载即可。

第4步:编写代码将网页保存为图片

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from PIL import Image
import io

# 设置Chrome选项
chrome_options = Options()
chrome_options.add_argument("--headless")  # 无头模式,不打开浏览器窗口
chrome_options.add_argument("--disable-gpu")

# 指定ChromeDriver的路径
service = Service(executable_path='C:\\chromedriver-win64\\chromedriver.exe')

# 创建WebDriver对象
driver = webdriver.Chrome(service=service, options=chrome_options)

# 访问目标网页
driver.get('https://blog.csdn.net/a497785609')

# 获取页面的实际高度和宽度
width = driver.execute_script("return document.documentElement.scrollWidth")
height = driver.execute_script("return document.documentElement.scrollHeight")

# 设置窗口大小
driver.set_window_size(width, height)

# 截图并保存
driver.save_screenshot('C:\\chromedriver-win64\\screenshot.png')

# 使用Pillow处理图像(可选)
image = Image.open(io.BytesIO(driver.get_screenshot_as_png()))
image.show()

# 关闭浏览器
driver.quit()

至此,使用Python+Chrome即可将网页保存为图片了。

第5步:将网页保存为PDF

使用ChromeDriver+DevTools,可以将网页保存为PDF。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from PIL import Image
import io
import base64

# 设置Chrome选项
chrome_options = Options()
chrome_options.add_argument("--headless")  # 无头模式,不打开浏览器窗口
chrome_options.add_argument("--disable-gpu")

# ChromeDriver路径
ChromeDriver = 'C:\\chromedriver-win64\\chromedriver.exe'

# 访问目标网页
url = 'https://blog.csdn.net/a497785609'

# 保存PDF文件的路径
file_name = "C:\\test.pdf"

# 指定ChromeDriver的路径
service = Service(executable_path=ChromeDriver)

# 创建WebDriver对象
driver = webdriver.Chrome(service=service, options=chrome_options)

# 访问目标网页
driver.get(url)

# 获取页面的实际高度和宽度
width = driver.execute_script("return document.documentElement.scrollWidth")
height = driver.execute_script("return document.documentElement.scrollHeight")

# 设置窗口大小
driver.set_window_size(width, height)

# 【打印为PDF】
# 调用 Chrome DevTools 的 printToPDF 方法,打印参数参考:https://chromedevtools.github.io/devtools-protocol/tot/Page/#method-printToPDF
pdf_data = driver.execute_cdp_cmd("Page.printToPDF", {"landscape": False,
                                                      "displayHeaderFooter": False,
                                                      "printBackground": False,
                                                      "scale": 1.0,                # 必须是 float
                                                      "paperWidth": 8.5,           # A4纸宽度(英寸)
                                                      "paperHeight": 11.0,         # A4纸高度(英寸)
                                                      "marginTop": 0.5,
                                                      "marginBottom": 0.5,
                                                      "marginLeft": 0.5,
                                                      "marginRight": 0.5})
# 解码并写入 PDF 文件
with open(file_name, "wb") as f:
    f.write(base64.b64decode(pdf_data['data']))

print(" 已保存到文件:"+file_name)

# 关闭浏览器
driver.quit()

到此这篇关于Python使用Selenium将网页保存为图片或PDF的文章就介绍到这了,更多相关Python网页保存为图片或PDF内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Pytorch:dtype不一致问题(expected dtype Double but got dtype Float)

    Pytorch:dtype不一致问题(expected dtype Double but&

    这篇文章主要介绍了Pytorch:dtype不一致问题(expected dtype Double but got dtype Float),具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-02-02
  • python爬虫用scrapy获取影片的实例分析

    python爬虫用scrapy获取影片的实例分析

    在本篇内容里小编给大家整理的是一篇关于python爬虫用scrapy获取影片的实例分析内容,有兴趣的朋友们可以参考下。
    2020-11-11
  • Python获取文件ssdeep值的方法

    Python获取文件ssdeep值的方法

    这篇文章主要介绍了Python获取文件ssdeep值的方法,是一个比较实用的技巧,本文详细讲述了实现这一功能的具体步骤及相关注意事项,需要的朋友可以参考下
    2014-10-10
  • 使用Python读取大文件的方法

    使用Python读取大文件的方法

    这篇文章主要介绍了使用Python读取大文件的方法,需要的朋友可以参考下
    2018-02-02
  • Python用UUID库生成唯一ID的方法示例

    Python用UUID库生成唯一ID的方法示例

    在C#中很容易生成一组唯一码,最常用的是结构体GUID的NewGuid()实例。如果C#运行Guid.NewGuid();将会得到据说世界唯一的号码,形如:887687be-00cf-4dca-8fe4-7c4fc19b9ecc 。最近看了一下Python的相关模块,也发现了一个模块uuid。下面来看看详细的介绍与使用示例吧。
    2016-12-12
  • Python文件夹与文件的操作实现代码

    Python文件夹与文件的操作实现代码

    最近在写的程序频繁地与文件操作打交道,这块比较弱,还好在百度上找到一篇不错的文章,这是原文传送门,我对原文稍做了些改动
    2014-07-07
  • Python进程,多进程,获取进程id,给子进程传递参数操作示例

    Python进程,多进程,获取进程id,给子进程传递参数操作示例

    这篇文章主要介绍了Python进程,多进程,获取进程id,给子进程传递参数操作,结合实例形式分析了Python多进程、父子进程以及进程参数传递相关操作技巧,需要的朋友可以参考下
    2019-10-10
  • python脚本编辑oss文件的实现示例

    python脚本编辑oss文件的实现示例

    本文主要介绍了python脚本编辑oss文件,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2024-05-05
  • Python递归生成全排列序列实操

    Python递归生成全排列序列实操

    这篇文章主要介绍了Python递归生成全排列序列实操,文章给予Python递归的相关资料展开对全排列序列的实现介绍,需要的小伙伴可以参考一下
    2022-04-04
  • 如何利用Pandas查询选取数据

    如何利用Pandas查询选取数据

    在数据分析的过程中通常要对数据进行清洗与处理,而其中比较重要和常见的操作就有对数据进行筛选与查询,下面这篇文章主要给大家介绍了关于如何利用Pandas查询选取数据的相关资料,需要的朋友可以参考下
    2022-07-07

最新评论