python提取word文件中的图片并上传阿里云OSS

 更新时间:2021年12月22日 15:51:20   作者:梦想橡皮擦  
这篇文章主要介绍了通过Python提取Word文件中的所有图片,并将其上传至阿里云OSS。文中的示例代码对学习Python有一定的帮助,快跟随小编一起学习一下吧

该需求是一个真实的实战需求,如果你的公司在做题库类的系统,一定会涉及该方面的内容,所以收藏起来吧。

需求简单描述如下所示:

1.提取 Word(为了便于解决,统一格式为 docx)中的题干/选项图片;

2.将其传递到云 OSS 上,并返回图片地址;

3.部分场景,需要将其拼接为 HTML 的 img 标签进行返回。

实操环节

首先你需要准备好云OSS的 AccessKeyId 和 AccessKeySecret ,这两个值一般由运维工程师提供给你,如果你的公司比较小,没有运维岗位,那就需要自己去申请并进行配置啦。

云 OSS 的购买和设置的流程非常简单,创建一个 Bucket 之后,就可以使用了。

然后点击创建好的 Bucket ,进行权限设置,选择公共读即可。

接下来在 Python 文件中编写如下代码,并测试是否可以返回 Bucket 对象,下述的字符串一定要写准确,任意内容错误都会报错,导致 oss 无法链接。

AccessKeyId = '你的 AccessKeyId'
AccessKeySecret = '你的 AccessKeySecret'
oos_auth = oss2.Auth(AccessKeyId, AccessKeySecret)
endpoint = 'http://oss-cn-beijing.aliyuncs.com'

bucket = oss2.Bucket(oos_auth, endpoint, 'Bucket 名称')  
print(bucket)

上述字符串的值,可以在云 OSS 的概览中找到,如下图所示。

接下来就进入 Word 图片的环节,读取文件依旧使用第三方模块, python-docx 。

在正式开始前,需要准备好一个测试用的 Word 文档,可以参考下图设置 Word 文档的内容。

首先通过 python-docx 读取文档中的所有行 paragraphs ,使用如下代码:

import oss2
import time

from docx import Document

def get_questions():
    document = Document(docx='测试 Word 文档.docx')
    for p in document.paragraphs:
        print(p.text)

if __name__ == '__main__':
    get_questions()

上述代码重点为 document.paragraphs ,调用该属性将逐段落返回文档内容,然后再通过对象的 .text 属性,输出里面的文字。

此时的代码无法获取到段落中的图片,可以使用下述代码进行提取。

import oss2
import time

from docx import Document

# 获取 Word 文档中的图片
def get_picture(document, paragraph):
    img = paragraph._element.xpath('.//pic:pic')
    if not img:
        return
    img = img[0]
    embed = img.xpath('.//a:blip/@r:embed')[0]
    related_part = document.part.related_parts[embed]
    image = related_part.image
    return image

def get_questions():
    document = Document(docx='测试 Word 文档.docx')

    for p in document.paragraphs:
    	# 读取图片
        img = get_picture(document, p)

        print(img)
        if img is not None:
        	# 输出图片名
            print(img.filename)
            # 输出图片后缀
            print(img.ext)
            # 输出图片的二进制流
        	# print(img.blob)
        print(p.text)

if __name__ == '__main__':
    get_questions()

在上述代码中,最重要的函数为 get_picture() 函数,核心逻辑是由于 docx 文档是一种 xml 结构,通过 paragraph._element.xpath() 方法可以进行数据提取。

读取数据的结果如下所示:

在上文的注释中,还存在一个图片属性 img.blob ,即读取图片的二进制流。

拿该文件流即可写入云 OSS,然后拼接图片的访问路径,最后将其拼接到 img 标签中即可。

import oss2
import time

from docx import Document

# 获取 Word 文档中的图片
def get_picture(document, paragraph):
    img = paragraph._element.xpath('.//pic:pic')
    if not img:
        return
    img = img[0]
    embed = img.xpath('.//a:blip/@r:embed')[0]
    related_part = document.part.related_parts[embed]
    image = related_part.image
    return image

def ret_up_imgurl(image):
    blob = image.blob
    # 后缀
    ext = image.ext

    AccessKeyId = '你的 AccessKeyId'
    AccessKeySecret = '你的 AccessKeySecret '
    oos_auth = oss2.Auth(AccessKeyId, AccessKeySecret)
    endpoint = 'http://oss-cn-beijing.aliyuncs.com'

    bucket = oss2.Bucket(oos_auth, endpoint, 'Bucket 名称')  

    base_file_url = 'https://Bucket 名称.oss-cn-beijing.aliyuncs.com/'
    # 获取一个文件名
    file_name = str(int(time.time())) + "." + ext
    # 上传二进制流
    res = bucket.put_object(file_name, blob)
    if res.status == 200:
    	# 返回标签
        img_format = '<img src="{}" />'
        return img_format.format(base_file_url + file_name)
    else:
        return False

def get_questions():
    document = Document(docx='测试 Word 文档.docx')

    for p in document.paragraphs:
        print(p.text)
        img = get_picture(document, p)

        print(img)
        if img is not None:
            print(img.filename)
            print(img.ext)
            ret_up_imgurl(img.blob)

if __name__ == '__main__':
    get_questions()

上述代码重点部分在 bucket.put_object(file_name, blob) ,该方法将图片二进制流传递到OSS空间。 

到此这篇关于python提取word文件中的图片并上传阿里云OSS的文章就介绍到这了,更多相关python提取word文件中的图片内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python使用arrow库优雅地处理时间数据详解

    Python使用arrow库优雅地处理时间数据详解

    虽然Python提供了多个内置模块用于操作日期时间,但有的时候并不能满足我们的需求,所以下面这篇文章主要给大家介绍了关于Python使用arrow库如何优雅地处理时间数据的相关资料,需要的朋友可以参考借鉴,下面来一起看看吧。
    2017-10-10
  • 利用Anaconda创建虚拟环境的全过程

    利用Anaconda创建虚拟环境的全过程

    因为多次重新配置环境,这些命令每次都要用,每次都忘记,需要重新搜索,所以记录这一过程,下面这篇文章主要给大家介绍了关于利用Anaconda创建虚拟环境的相关资料,文中通过图文介绍的非常详细,需要的朋友可以参考下
    2022-07-07
  • 详解如何在PyCharm控制台中输出彩色文字和背景

    详解如何在PyCharm控制台中输出彩色文字和背景

    这篇文章主要介绍了详解如何在PyCharm控制台中输出彩色文字和背景,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-08-08
  • Python Selenium安装及环境配置的实现

    Python Selenium安装及环境配置的实现

    这篇文章主要介绍了Python Selenium安装及环境配置的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-03-03
  • 利用Python实现Shp格式向GeoJSON的转换方法

    利用Python实现Shp格式向GeoJSON的转换方法

    JSON(JavaScript Object Nonation)是利用键值对+嵌套来表示数据的一种格式,以其轻量、易解析的优点,这篇文章主要介绍了利用Python实现Shp格式向GeoJSON的转换,需要的朋友可以参考下
    2019-07-07
  • python如何将图片批量保存至word文档中

    python如何将图片批量保存至word文档中

    这篇文章主要介绍了python如何将图片批量保存至word文档中问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-02-02
  • 深入了解Python中计数器Counter的使用

    深入了解Python中计数器Counter的使用

    计数器counter是包含在collections模块中的容器,这篇文章主要来和大家聊聊计数器counter的使用,感兴趣的小伙伴可以跟随小编一起学习一下
    2023-09-09
  • Python pip使用超时问题解决方案

    Python pip使用超时问题解决方案

    这篇文章主要介绍了Python pip使用超时问题解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-08-08
  • pytorch报错问题:ValueError: num_samples should be a positive integer value, but got num_samples=0

    pytorch报错问题:ValueError: num_samples should be

    这篇文章主要介绍了pytorch报错问题:ValueError: num_samples should be a positive integer value, but got num_samples=0的解决方案,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-02-02
  • 用python实现九九乘法表实例

    用python实现九九乘法表实例

    大家好,本篇文章主要讲的是用python实现九九乘法表实例,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下
    2022-01-01

最新评论