使用Python快速提取PPT中的文本内容的代码示例

 更新时间:2024年03月10日 09:33:43   作者:Eiceblue  
本文将介绍如何使用Python程序提取PowerPoint演示文稿中的文本内容,包括幻灯片中的主体文本、幻灯片备注文本以及幻灯片,文中通过代码示例给大家介绍的非常详细,具有一定的参考价值,需要的朋友可以参考下

直接提取PPT中的文本内容可以方便我们进行进一步处理或分析,也可以直接用于其他文档的编撰。通过使用Python程序,我们可以快速批量提取PPT中的文本内容,从而实现高效的信息收集或对其中的数据进行分析。本文将介绍如何使用Python程序提取PowerPoint演示文稿中的文本内容,包括幻灯片中的主体文本、幻灯片备注文本以及幻灯片。

本文所使用的方法需要用到Spire.Presentation for Python,可从官网下载或通过PyPI安装:pip install Spire.Presentation

申请免费License

用Python提取PPT幻灯片文本

在PPT幻灯片中,文本内容放置在各种形状中,如文本框、图形。我们可以先获取幻灯片中的形状,再提取其中的文本,从而实现对幻灯片文本内容的提取。以下是操作步骤:

  • 创建 Presentation 对象并使用 Presentation.LoadFromFile() 方法载入PPT。
  • 遍历PPT中的幻灯片,然后遍历幻灯片中的形状。
  • 判断形状是否为 IAutoShape 实例。如果是,则通过 IAutoShape.TextFrame.Paragraphs 获取其中的段落,再通过 Paragraph.Text 属性获取段落中的文本。
  • 将文本写入到文本文件。

代码示例:

Python

从 spire.presentation 导入 *
从 spire.presentation.common 导入 *

# 创建 Presentation 类的对象
pres = Presentation()

# 加载 PowerPoint 演示文稿
pres.LoadFromFile("示例.pptx")

text = []
# 循环遍历每个幻灯片
对于 slide 在 pres.Slides 中:
    # 循环遍历每个形状
    对于 shape 在 slide.Shapes 中:
        # 检查形状是否为 IAutoShape 实例
        如果 isinstance(shape, IAutoShape):
            # 从形状中提取文本
            对于 paragraph 在 shape.TextFrame.Paragraphs 中:
                text.append(paragraph.Text)

# 将文本写入文本文件
f = open("output/幻灯片文本.txt", "w", encoding='utf-8')
对于 s 在 text 中:
    f.write(s + "\n")
f.close()
pres.Dispose()

提取结果:

Python提取PPT幻灯片文本

用Python提取PPT备注文本

备注是基于幻灯片添加的额外信息,可以对演讲者进行引导或提示,且不会展示给观众。幻灯片的备注储存在 NotesSlide 对象中,可以通过 ISlide.NotesSlide 属性获取。再获取到改对象之后,就可以使用 NotesSlide.NotesTextFrame.Text 属性提取其中的文本了。以下是操作步骤:

  • 创建 Presentation 对象并使用 Presentation.LoadFromFile() 方法载入PPT。
  • 遍历PPT中的幻灯片,通过 ISlide.NotesSlide 属性获取 NotesSlide 对象,再通过 NotesSlide.NotesTextFrame.Text 属性提取备注文本。
  • 将文本写入文本文件。

代码示例:

Python

从 spire.presentation 导入 *
从 spire.presentation.common 导入 *

# 创建 Presentation 类的对象
pres = Presentation()

# 加载 PowerPoint 演示文稿
pres.LoadFromFile("示例.pptx")

notes_list = []
# 循环遍历每个幻灯片
对于 slide 在 pres.Slides 中:
    # 获取备注幻灯片
    notes_slide = slide.NotesSlide
    # 获取备注内容
    notes = notes_slide.NotesTextFrame.Text
    notes_list.append(notes)

# 将备注写入文本文件
f = open("output/备注文本.txt", "w", encoding="utf-8")
对于 note 在 notes_list 中:
    f.write(note)
    f.write("\n")
f.close()
pres.Dispose()

提取结果:

Python提取PPT备注文本

用Python提取PPT批注文本

我们还可以通过 ISlide.Comments 属性获取PPT幻灯片中的批注,并通过 Comment.Text 属性获取批注中的文本。以下是操作步骤:

  • 创建 Presentation 对象并使用 Presentation.LoadFromFile() 方法载入PPT。
  • 遍历幻灯片,通过 ISlide.Comments 属性获取每张幻灯片中的批注的集合。
  • 遍历批注,通过 Comment.Text 属性提取批注中的文本。
  • 将文本写入到文本文件。

代码示例:

Python

from spire.presentation import *
from spire.presentation.common import *

# 创建 Presentation 类的对象
pres = Presentation()

# 加载一个 PowerPoint 演示文稿
pres.LoadFromFile("示例.pptx")

comments_list = []
# 遍历所有幻灯片
for slide in pres.Slides:
    # 获取幻灯片中的所有评论
    comments = slide.Comments
    # 遍历评论
    for comment in comments:
        # 获取评论文本
        comment_text = comment.Text
        comments_list.append(comment_text)

# 将评论写入文本文件
f = open("output/批注文本.txt", "w", encoding="utf-8")
for comment in comments_list:
    f.write(comment + "\n")
f.close()
pres.Dispose()

提取结果:

Python提取PPT批注文本

总结

本文介绍了如何使用Python提取幻灯片中的文本内容,包括提取幻灯片文本、备注文本以及批注文本。
文中使用的API还支持其他的很多PPT处理操作,请前往Spire.Presentation for Python教程了解更多PPT操作。

以上就是使用Python快速提取PPT中的文本内容的代码示例的详细内容,更多关于Python提取PPT文本内容的资料请关注脚本之家其它相关文章!

相关文章

  • Python实现快速排序的方法详解

    Python实现快速排序的方法详解

    这篇文章主要介绍了Python实现快速排序的方法,结合实例形式详细分析了快速排序的思路、原理及Python具体实现技巧与相关操作注意事项,需要的朋友可以参考下
    2019-10-10
  • Python算法应用实战之队列详解

    Python算法应用实战之队列详解

    队列是一种先进先出(First-In-First-Out,FIFO)的数据结构。队列被用在很多地方,比如提交操作系统执行的一系列进程、打印任务池等,一些仿真系统用队列来模拟银行或杂货店里排队的顾客。下面就介绍了Python中队列的应用实战,需要的可以参考。
    2017-02-02
  • python 日志模块logging的使用场景及示例

    python 日志模块logging的使用场景及示例

    这篇文章主要介绍了python 日志模块logging的使用场景及示例,帮助大家更好的理解和使用python,感兴趣的朋友可以了解下
    2021-01-01
  • Python中的进程分支fork和exec详解

    Python中的进程分支fork和exec详解

    这篇文章主要介绍了Python中的进程分支fork和exec详解,本文用实例讲解fork()的使用,并讲解了exec相关的8个方法等内容,需要的朋友可以参考下
    2015-04-04
  • python反转单链表算法题

    python反转单链表算法题

    这篇文章主要为大家详细介绍了python反转单链表算法题,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-05-05
  • python numpy 反转 reverse示例

    python numpy 反转 reverse示例

    今天小编就为大家分享一篇python numpy 反转 reverse示例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • python内存管理分析

    python内存管理分析

    这篇文章主要介绍了python内存管理,较为详细的分析了Python的内存管理机制,需要的朋友可以参考下
    2015-04-04
  • Python排序搜索基本算法之堆排序实例详解

    Python排序搜索基本算法之堆排序实例详解

    这篇文章主要介绍了Python排序搜索基本算法之堆排序,结合实例形式详细分析了堆排序的原理、Python实现方法及相关操作注意事项,需要的朋友可以参考下
    2017-12-12
  • 总结Python编程中函数的使用要点

    总结Python编程中函数的使用要点

    这篇文章主要介绍了Python编程中函数的使用要点总结,文中也讲到了人民群众喜闻乐见的lambda表达式的用法,需要的朋友可以参考下
    2016-03-03
  • 详解Python中生成随机数据的示例详解

    详解Python中生成随机数据的示例详解

    在日常工作编程中存在着各种随机事件,同样在编程中生成随机数字的时候也是一样。每当在 Python 中生成随机数据、字符串或数字时,最好至少大致了解这些数据是如何生成的。所以本文将详细为大家讲解一下Python是如何生成随机数据,需要的可以参考一下
    2022-04-04

最新评论