使用Python实现Office文档(Word/Excel/PowerPoint)批量转换为PDF

 更新时间:2024年10月22日 08:41:04   作者:Eiceblue  
在处理不同格式的Office文档(如Word、Excel和PowerPoint)时,将其转换为PDF格式是常见的需求,本文就跟随小编来看看如何使用Python将Word/Excel/PowerPoint批量转换为PDF吧

在处理不同格式的Office文档(如Word、Excel和PowerPoint)时,将其转换为PDF格式是常见的需求。这种转换不仅确保了文件在不同设备和操作系统间的一致性显示,而且有助于保护原始内容不被轻易修改,非常适合于正式报告、提案或资料归档等场景。通过使用Python,开发者可以编写简洁高效的脚本来自动完成这些任务,满足企业或个人对于文档管理的需求。本文将介绍如何使用Python代码实现Word、Excel和PowerPoint文档到PDF文件的批量转换,同时提供用Python将Office文档合并转换为PDF的方法。

本文所使用的方法需要用到Spire.Office for Python,PyPI:pip install spire.office。

将Word、Excel和PowerPoint文档批量分别转换为PDF文档

我们可以通过判断文档的文件后缀名,然后将对应的文档分别用Document类(Word)、Workbook类(Excel)和Presentation类(PowerPoint)的LoadFromFile方法载入,再分别使用SaveToFile(string: fileName, FileFormat.PDF)方法转换并保存为PDF文档,从而实现Office文档到PDF文件的批量转换。以下是详细操作步骤:

  • 导入所需模块。
  • 定义要处理的文件夹路径,获取指定类型的文件并排序。
  • 创建一个PdfDocument对象。
  • 遍历文件列表的文件,根据后缀名判断文件类型。
  • 根据文件类型创建Document、Workbook或Presentation对象。
  • 使用LoadFromFile方法载入文档。
  • 使用SaveToFile方法将文档转换为PDF并保存。
  • 释放资源。

代码示例

from spire.pdf import PdfDocument
from spire.doc import Document
from spire.xls import Workbook
from spire.presentation import Presentation
from spire.doc import FileFormat as wFileFormat
from spire.xls import FileFormat as eFileFormat
from spire.presentation import FileFormat as pFileFormat
import os

# 定义要处理的文件夹路径
folderPath = "Documents/"
# 获取所有指定类型的文件并排序
extensions = [".doc", ".docx", ".xls", ".xlsx", ".ppt", ".pptx"]
files = sorted([os.path.join(folderPath, f) for f in os.listdir(folderPath) if f.lower().endswith(tuple(extensions))])

# 创建一个PdfDocument对象
pdf = PdfDocument()

# 遍历文件列表
for file in files:
    extension = os.path.splitext(file)[1].lower()
    if extension in [".doc", ".docx"]:
        # 创建Document对象
        doc = Document()
        # 载入Word文档
        doc.LoadFromFile(file)
        # 将Word文档转换为PDF
        doc.SaveToFile(f"output/Documents/{os.path.basename(file)}.pdf", wFileFormat.PDF)
        doc.Close()
    if extension in [".xls", ".xlsx"]:
        # 创建Workbook对象
        workbook = Workbook()
        # 载入Excel文件
        workbook.LoadFromFile(file)
        # 将Excel文件转换为PDF
        workbook.SaveToFile(f"output/Documents/{os.path.basename(file)}.pdf", eFileFormat.PDF)
        workbook.Dispose()
    if extension in [".ppt", ".pptx"]:
        # 创建Presentation对象
        presentation = Presentation()
        # 载入PowerPoint文件
        presentation.LoadFromFile(file)
        # 将PowerPoint文件转换为PDF
        presentation.SaveToFile(f"output/Documents/{os.path.basename(file)}.pdf", pFileFormat.PDF)
        presentation.Dispose()

# 关闭PdfDocument对象
pdf.Close()

结果

将Word、Excel、PowerPoint和PDF文档合并转换为单个PDF

除了批量分别转换Office文档外,我们还可以将各种类型的文档合并转换到同一个PDF文件中。以下是操作步骤:

  • 导入所需模块。
  • 定义要处理的文件夹路径,获取指定类型的文件并排序。
  • 创建一个PdfDocument对象pdf用于储存最终PDF文档。
  • 创建一个新的PdfDocument对象temPdf和一个临时PDF文档地址用于转换出的临时PDF文档。
  • 遍历文件列表的文件,根据后缀名判断文件类型。
  • 根据文件类型创建Document、Workbook或Presentation对象,并使用LoadFromFile方法载入文档。
  • 使用SaveToFile方法将文档转换为PDF并保存到临时PDF路径。
  • 使用temPdf.LoadFromFile()方法载入临时PDF,并使用pdf.AppendPage(temPdf)将其页面插入到最终PDF中。
  • 处理完成后,使用pdf.SaveToFile()方法保存最终PDF文档。
  • 清理临时文件并释放资源。

代码示例

from spire.pdf import PdfDocument
from spire.doc import Document
from spire.xls import Workbook
from spire.presentation import Presentation
from spire.doc import FileFormat as wFileFormat
from spire.xls import FileFormat as eFileFormat
from spire.presentation import FileFormat as pFileFormat

import os

# 指定要处理的文件夹路径
folderPath = 'Documents/'
# 获取所有指定类型的文件并排序
extensions = ['.doc', '.docx', '.xls', '.xlsx', '.ppt', '.pptx']
files = sorted([os.path.join(folderPath, f) for f in os.listdir(folderPath) if f.lower().endswith(tuple(extensions))])

# 创建一个PdfDocument对象
pdf = PdfDocument()
# 创建一个临时PDF和一个Stream对象
temPdf = PdfDocument()
temPdfPath = 'temp.pdf'

# 遍历文件列表
for file in files:
    extension = os.path.splitext(file)[1].lower()

    if extension in ['.doc', '.docx']:
        # 加载Word文档
        doc = Document()
        doc.LoadFromFile(file)
        # 保存为临时PDF
        doc.SaveToFile(temPdfPath, wFileFormat.PDF)
        # 载入临时PDF并将其页面添加到最终PDF中
        temPdf.LoadFromFile(temPdfPath)
        pdf.AppendPage(temPdf)
        doc.Close()  # 显式关闭文档

    elif extension in ['.xls', '.xlsx']:
        # 加载Excel工作簿
        workbook = Workbook()
        workbook.LoadFromFile(file)
        # 保存为临时PDF
        workbook.SaveToFile(temPdfPath, eFileFormat.PDF)
        # 载入临时PDF并将其页面添加到最终PDF中
        temPdf.LoadFromFile(temPdfPath)
        pdf.AppendPage(temPdf)
        workbook.Dispose()  # 显式关闭工作簿

    elif extension in ['.ppt', '.pptx']:
        # 加载PowerPoint演示文稿
        presentation = Presentation()
        presentation.LoadFromFile(file)
        # 保存为临时PDF
        presentation.SaveToFile(temPdfPath, pFileFormat.PDF)
        # 载入临时PDF并将其页面添加到最终PDF中
        temPdf.LoadFromFile(temPdfPath)
        pdf.AppendPage(temPdf)
        presentation.Dispose()  # 显式关闭演示文稿

    elif extension == '.pdf':
        # 如果已经是PDF,则直接载入并将其页面添加到最终PDF中
        temPdf.LoadFromFile(file)
        pdf.AppendPage(temPdf)

# 保存最终PDF
outputPath = "output/CombinedPDF.pdf"
pdf.SaveToFile(outputPath)

# 清理临时文件
if os.path.exists('temp.pdf'):
    os.remove('temp.pdf')

# 释放资源
pdf.Close()
temPdf.Close()

结果

本文演示了如何使用Python将Word、Excel和PowerPoint文档批量分别转换为PDF文档,以及将它们合并转换为单个PDF。Spire.Office for Python还支持进行许多其他格式的转换,请前往官网了解。

以上就是使用Python实现Office文档(Word/Excel/PowerPoint)批量转换为PDF的详细内容,更多关于Python Office转PDF的资料请关注脚本之家其它相关文章!

相关文章

  • 对python xlrd读取datetime类型数据的方法详解

    对python xlrd读取datetime类型数据的方法详解

    今天小编就为大家分享一篇对python xlrd读取datetime类型数据的方法详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • Python Django教程之模板的使用

    Python Django教程之模板的使用

    模板是 Django MVT 结构的第三个也是最重要的部分。Django中的模板基本上是用HTML,CSS和Javascript编写在.html文件中的。本文将通过实例详细聊聊Django模板的使用,感兴趣的可以
    2022-10-10
  • 基于keras输出中间层结果的2种实现方式

    基于keras输出中间层结果的2种实现方式

    今天小编就为大家分享一篇基于keras输出中间层结果的2种实现方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • pycharm 解除默认unittest模式的方法

    pycharm 解除默认unittest模式的方法

    今天小编就为大家分享一篇pycharm 解除默认unittest模式的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-11-11
  • python with statement 进行文件操作指南

    python with statement 进行文件操作指南

    在Python中,with关键字是一个替你管理实现上下文协议对象的好东西。例如:file等。在file的结束,会自动关闭该文件句柄。而这正是本文所需要的
    2014-08-08
  • python读取mat文件生成h5文件的实现

    python读取mat文件生成h5文件的实现

    这篇文章主要介绍了python读取mat文件生成h5文件的实现方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-07-07
  • python用pyecharts画地图实例介绍

    python用pyecharts画地图实例介绍

    大家好,本篇文章主要讲的是python用pyecharts画地图实例介绍,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下
    2022-02-02
  • 用OpenCV进行年龄和性别检测的实现示例

    用OpenCV进行年龄和性别检测的实现示例

    这篇文章主要介绍了用 OpenCV 进行年龄和性别检测的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-01-01
  • python中argparse模块基础及使用步骤

    python中argparse模块基础及使用步骤

    argsparse是python的命令行解析的标准模块,内置于python,不需要安装。这个库可以让我们直接在命令行中就可以向程序中传入参数并让程序运行,接下来通过本文给大家介绍python argparse模块的相关知识,感兴趣的朋友一起看看吧
    2022-06-06
  • Python中PyExecJS(执行JS代码库)的具体使用

    Python中PyExecJS(执行JS代码库)的具体使用

    pyexecjs是一个用Python来执行JavaScript代码的工具库,本文主要介绍了Python中PyExecJS(执行JS代码库)的具体使用,具有一定的参考价值,感兴趣的可以了解一下
    2024-02-02

最新评论