Python3实现网页内容转换成PDF文档和图片

 更新时间:2022年06月13日 09:28:52   作者:Carl_奕然  
pdfkit是把 HTML+CSS 格式的文件转换成 PDF 的一种工具,它是 wkhtmltopdf 这个工具包的 python 封装。本文将利用pdfkit实现网页内容转换成PDF文档和图片效果,感兴趣的可以学习一下

1、引言

小鱼:小屌丝,你这是干啥呢?

小屌丝:我的女神想要这个网页的内容。

小鱼:那你也不能这一点点的复制粘贴啊,

小屌丝:为了我的女神,再辛苦我都愿意…

小鱼:咱能不能man一点,你直接把网页内容爬下来不就完事了,

小屌丝:我的女神还要把这些内容转换成PDF,

小鱼:你的女神事可真多…

小屌丝:鱼哥,你有什么好的法子吗?

小鱼:嗯,办法嘛,确实有

小屌丝:我懂。

小鱼:…上道这么快,果然为了你的女神,你什么都舍得,我也不磨叽了,直接上教程。

2、代码实战

关于网页的内容转换成PDF,通常思路:

  • 爬取网页内容
  • 保存到本地
  • 转换成PDF文档

这种方法, 确实可以实现,但是,很麻烦,需要转两次。

而今天,小鱼给大家分享的方法,就3行代码,一次搞定。

2.1 模块介绍

2.1.1 pdfkit

pdfkit 是把 HTML+CSS 格式的文件转换成 PDF 的一种工具,它是 wkhtmltopdf 这个工具包的 python 封装。

2.2 安装

pip install pdfkit

其它安装方式,直接看这两篇:

Python3自动安装第三方库,跟pip说再见

Python:一行代码,导入Python所有库

敲黑板:

pdfkit 是基于 wkhtmltopdf 的封装,所以需要先安装 wkhtmltopdf 。

wkhtmltopdf官网

2.3 代码实例

2.3.1 URL 对应网页转 PDF

代码示例:

# -*- coding:utf-8 -*-
# @Time   : 2022-06-12
# @Author : carl_DJ

import pdfkit

'URL 对应网页转 PDF'
#wkhtmltopdf.exe 为本地安装的路径
config = pdfkit.configuration(wkhtmltopdf=r"D:\ProgramFiles\wkhtmltopdf\bin\wkhtmltopdf.exe")
#调用pdfkit.from_url参数,转换PDF
pdfkit.from_url(r'https://blog.csdn.net/wuyoudeyuer?type=blog', 'Carl_奕然.pdf', configuration=config)

运行结果:

2.3.2 HTML 文件转 PDF

代码示例:

# -*- coding:utf-8 -*-
# @Time   : 2022-06-12
# @Author : carl_DJ

import pdfkit

'HTML 文件转 PDF'
config = pdfkit.configuration(wkhtmltopdf=r"D:\ProgramFiles\wkhtmltopdf\bin\wkhtmltopdf.exe")
#调用pdfkit.from_file参数,转换PDF
pdfkit.from_file(r'D:\Carl_奕然的博客.html, 'Carl_奕然.pdf', configuration=config)

敲黑板

读取html,需要调用pdfkit.from_file 参数。

2.3.3 字符串转 PDF

代码示例:

# -*- coding:utf-8 -*-
# @Time   : 2022-06-12
# @Author : carl_DJ

import pdfkit

'字符串转 PDF'
config = pdfkit.configuration(wkhtmltopdf=r"D:\ProgramFiles\wkhtmltopdf\bin\wkhtmltopdf.exe")
#调用pdfkit.from_file参数,转换PDF
pdfkit.from_string(r'Ilike wangxinling, 'Carl_奕然.pdf', configuration=config)

运行结果

2.4 拓展

小屌丝:鱼哥,如果我不想写代码,能不能一键转换成PDF呢?

小鱼:嗯,这个可以实现,但是不能一键,必须一行代码。

小屌丝:也行,能少些一行是一行。

2.4.1 网页转换PDF

开篇小鱼也说过:pdfkit 是基于 wkhtmltopdf 的封装,所以功能肯定也是基于 wkhtmltopdf 的。

于是乎,我们就能先到,直接用wkhtmltopdf 的功能,看看能否实现PDF转换。

代码示例

第一步、找到wkhtmltopdf的安装路径,以小鱼的为例:

D:\ProgramFiles\wkhtmltopdf\bin\wkhtmltopdf.exe

第二步、powershell打开,输入命令

.\wkhtmltopdf.exe https://blog.csdn.net/wuyoudeyuer/category_9471191.html D:\carl.pdf

运行结果

解析

  • .\wkhtmltopdf.exe :调用wkhtmltopdf.exe
  • https://blog.csdn.net/wuyoudeyuer?type=blog:url地址
  • D:\carl.pdf:保存的路径

2.4.2 网页转换图片

代码示例

我们来试一下网页转换成图片,

同样,

第一步、打开powershell,进入到bin文件夹下

第二步、输入命令:.\wkhtmltoimage.exe https://blog.csdn.net/wuyoudeyuer/category_9471191.html D:\carl.png

运行结果

3、总结

今天的分享,就到这里了。

是不是奇奇怪怪的姿势,又增加了呢。

我们总结一下今天的内容:

pdfkit 可以可以实现的转换:

  • URL 对应网页转 PDF
  • html文件转 PDF
  • 字符串转 PDF

wkhtmltopdf.exe可以实现的转换:

  • 网页转图片
  • 网页转 PDF

到此这篇关于Python3实现网页内容转换成PDF文档和图片的文章就介绍到这了,更多相关Python网页内容转PDF 图片内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • anaconda如何查看并管理python环境

    anaconda如何查看并管理python环境

    这篇文章主要介绍了anaconda如何查看并管理python环境,Anaconda是Python的一个开源发行版本,主要面向科学计算,预装了丰富强大的库。使用Anaconda可以轻松管理多个版本的Python环境,需要的朋友可以参考下
    2019-07-07
  • OpenCV形状检测的示例详解

    OpenCV形状检测的示例详解

    本文主要介绍了OpenCV中的形状检测,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-08-08
  • python 使用pygame工具包实现贪吃蛇游戏(多彩版)

    python 使用pygame工具包实现贪吃蛇游戏(多彩版)

    这篇文章主要介绍了python 使用pygame工具包实现贪吃蛇游戏,本篇给大家分享的是一个多彩版,通过实例代码给大家讲解,非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-10-10
  • python基础教程之字典操作详解

    python基础教程之字典操作详解

    这篇文章主要介绍了python中的字典操作详解,需要的朋友可以参考下
    2014-03-03
  • 用于ETL的Python数据转换工具详解

    用于ETL的Python数据转换工具详解

    这篇文章主要介绍了用于ETL的Python数据转换工具,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-07-07
  • Python Sweetviz轻松实现探索性数据分析

    Python Sweetviz轻松实现探索性数据分析

    Sweetviz是一个开放源代码Python库,可生成精美的高密度可视化文件,以单行代码启动EDA(探索性数据分析)。输出是一个完全独立的HTML应用程序,该系统围绕快速可视化目标值和比较数据集而构建。其目标是帮助快速分析目标特征,训练与测试数据以及其他此类数据表征任务
    2021-11-11
  • 简单了解python反射机制的一些知识

    简单了解python反射机制的一些知识

    这篇文章主要介绍了简单了解python反射机制的一些知识,反射机制就是在运行时,动态的确定对象的类型,并可以通过字符串调用对象属性、方法、导入模块,是一种基于字符串的事件驱动。,需要的朋友可以参考下
    2019-07-07
  • python 获取图片中文字的四种办法

    python 获取图片中文字的四种办法

    本文主要介绍了python 获取图片中文字的几种办法,主要使用光学字符识别(OCR)技术,本文主要介绍了4种第三方库,具有一定的参考价值,感兴趣的可以了解一下
    2023-11-11
  • OpenCV半小时掌握基本操作之腐蚀膨胀

    OpenCV半小时掌握基本操作之腐蚀膨胀

    这篇文章主要介绍了OpenCV基本操作之腐蚀膨胀,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-09-09
  • Python基础篇之字符串的最全常用操作方法汇总

    Python基础篇之字符串的最全常用操作方法汇总

    我们在学习Python语言时会遇到各种各样的字符串方法处理,下面这篇文章主要给大家介绍了关于Python基础篇之字符串的最全常用操作方法的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
    2022-05-05

最新评论