Python实现批量提取PPT中的文字

 更新时间:2024年03月19日 11:46:14   作者:AI小智  
这篇文章主要为大家详细介绍了如何使用Python中的pptx和docx库来将PPT中的文字提取到Word中,文中的示例代码讲解详细,有需要的可以参考下

介绍

  • 本文将介绍如何使用pptxdocx库来将PPT中的文字提取到Word中。
  • 本文假设你已经安装了python和这两个库。
  • 本文的场景是:你需要将一个PPT文件中的所有文字内容提取出来,并按照原来的格式和顺序写入到一个Word文档中。

准备工作

首先,我们需要导入pptxdocx库,以及其他一些辅助库,如下:

import pptx
from docx import Document
from docx.shared import Pt
import os

这些库的作用是:

  • pptx库可以让我们读取和修改PPT文件的内容和格式。
  • docx库可以让我们创建和编辑Word文档的内容和格式。
  • Pt是一个辅助函数,可以将字号转换为磅(point)单位,方便我们设置字体大小。
  • os库可以让我们操作文件系统,例如创建目录,保存文件等。

然后,我们需要定义一些常量,如文件名,字体,颜色等,如下:

# 文件名
PPT_FILE = 'source.pptx'
WORD_FILE = 'output.docx'

# 字体
FONT_NAME = '宋体'
FONT_SIZE = 12

这些常量的作用是:

  • PPT_FILE是我们要提取文字的PPT文件的名称,你可以根据你自己的文件名进行修改。
  • WORD_FILE是我们要写入文字的Word文档的名称,你可以根据你自己的喜好进行修改。
  • FONT_NAME是我们要使用的字体的名称,你可以根据你自己的喜好进行修改。
  • FONT_SIZE是我们要使用的字体的大小,你可以根据你自己的喜好进行修改。

接下来,我们需要加载PPT文件和创建Word文档对象,如下:

# 加载PPT文件
prs = pptx.Presentation(PPT_FILE)

# 创建Word文档对象
doc = Document()

这些代码的作用是:

  • prs = pptx.Presentation(PPT_FILE)是用pptx库的Presentation类来创建一个PPT文件的对象,我们可以通过这个对象来访问和修改PPT文件的内容和格式。
  • doc = Document()是用docx库的Document类来创建一个空白的Word文档的对象,我们可以通过这个对象来添加和编辑Word文档的内容和格式。

提取PPT文字

首先,我们需要遍历PPT文件中的每一个幻灯片,如下:

# 遍历PPT文件中的每一个幻灯片
for slide in prs.slides:
    # 在此处添加代码

这段代码的作用是:

for slide in prs.slides:是用一个for循环来遍历PPT文件对象prs中的每一个幻灯片对象slide,我们可以通过这个对象来访问和修改幻灯片的内容和格式。

然后,我们需要遍历每一个幻灯片中的每一个形状,判断是否是包含文本的形状,如果是,就获取其内部的文本框对象,如下:

# 遍历每一个幻灯片中的每一个形状
for shape in slide.shapes:
    # 判断是否是包含文本的形状
    if shape.has_text_frame:
        # 获取其内部的文本框对象
        text_frame = shape.text_frame
        # 在此处添加代码

最后,我们需要遍历每一个文本框中的每一个段落,获取其文本内容和格式,然后将其写入到Word文档中,如下:

# 遍历每一个文本框中的每一个段落
for paragraph in text_frame.paragraphs:
    # 获取其文本内容和格式
    text = paragraph.text
    font = paragraph.font
    # 将其写入到Word文档中
    doc.add_paragraph(text, style=font)

保存Word文档

最后,我们需要保存生成的Word文档,如下:

# 保存生成的Word文档
doc.save(WORD_FILE)

这段代码的作用是:

doc.save(WORD_FILE)是用Word文档对象docsave方法来保存生成的Word文档,参数WORD_FILE是我们定义的Word文档的名称,你可以在你的电脑上找到这个文件。

总结

本文介绍了如何使用python-pptxpython-docx库来将PPT中的文字提取到Word中。

本文通过一个实际的场景,演示了如何遍历PPT文件中的每一个幻灯片,每一个形状,每一个文本框,每一个段落,获取其文本内容和格式,然后将其写入到Word文档中。

到此这篇关于Python实现批量提取PPT中的文字的文章就介绍到这了,更多相关Python提取PPT文字内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python中import的用法陷阱解决盘点小结

    Python中import的用法陷阱解决盘点小结

    这篇文章主要为大家介绍了Python中import的用法陷阱解决盘点小结,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-10-10
  • Python中is和==的区别详解

    Python中is和==的区别详解

    这篇文章主要介绍了Python中is和==的区别详解,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-11-11
  • Python如何实现PDF隐私信息检测

    Python如何实现PDF隐私信息检测

    随着越来越多的个人信息以电子形式存储和传输,确保这些信息的安全至关重要,本文将介绍如何使用Python检测PDF文件中的隐私信息,需要的可以参考下
    2025-02-02
  • Python 实现LeNet网络模型的训练及预测

    Python 实现LeNet网络模型的训练及预测

    本文将为大家详细讲解如何使用CIFR10数据集训练模型以及用训练好的模型做预测。代码具有一定价值,感兴趣的小伙伴可以学习一下
    2021-11-11
  • Python中常用的字典键和值排的方法

    Python中常用的字典键和值排的方法

    这篇文章主要为大家详细介绍了5种使用最多的Python字典 “键“ 和 “值“ 排序的方法,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一下
    2023-03-03
  • Pillow图像颜色处理的具体使用

    Pillow图像颜色处理的具体使用

    Pillow 提供了颜色处理模块 ImageColor,该模块支持不同格式的颜色,可以修改RGB的颜色,具有一定的参考价值,感兴趣的可以了解一下
    2021-11-11
  • python 列表输出重复值以及对应的角标方法

    python 列表输出重复值以及对应的角标方法

    今天小编就为大家分享一篇python 列表输出重复值以及对应的角标方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • Python利用SSH隧道实现数据库访问

    Python利用SSH隧道实现数据库访问

    这篇文章主要为大家详细介绍了如何通过sshtunnel类库建立SSH隧道,再使用paramiko通过SSH来访问数据库,感兴趣的小伙伴可以跟随小编一起学习一下
    2025-03-03
  • Python对列表排序的方法实例分析

    Python对列表排序的方法实例分析

    这篇文章主要介绍了Python对列表排序的方法,实例分析了Python列表排序函数的相关使用技巧,非常简单实用,需要的朋友可以参考下
    2015-05-05
  • 解决python 3 urllib 没有 urlencode 属性的问题

    解决python 3 urllib 没有 urlencode 属性的问题

    今天小编就为大家分享一篇解决python 3 urllib 没有 urlencode 属性的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-08-08

最新评论