python为图片和PDF去水印详解

 更新时间:2022年01月19日 09:31:33   作者:Python 技术  
大家好,本篇文章主要讲的是python为图片和PDF去水印详解,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下

网上下载的 pdf 学习资料有一些会带有水印,非常影响阅读。比如下面的图片就是在 pdf 文件上截取出来的。

29ff87305928769313f4b190c5284259.png

安装模块

PIL:Python Imaging Library 是 python 上非常强大的图像处理标准库,但是只能支持 python 2.7,于是就有志愿者在 PIL 的基础上创建了支持 python 3的 pillow,并加入了一些新的特性。

pip install pillow

pymupdf 可以用 python 访问扩展名为*.pdf、.xps、.oxps、.epub、.cbz或*.fb2的文件。还支持了许多流行的图像格式,包括多页TIFF图像。

pip install PyMuPDF

导入需要用到的模块

from PIL import Image
from itertools import product
import fitz
import os

获取图片的 RGB

pdf 去水印的原理和图片去水印的原理差不多,小编先从去除上面那张图片的水印开始。

学过计算机的小伙伴们都知道 ,计算机中用 RGB 代表红绿蓝,用 (255, 0, 0) 表示红色,(0, 255, 0) 表示绿色,(0, 0, 255) 表示蓝色,(255, 255, 255) 表示白色,(0, 0, 0) 表示黑色,去水印的原理就是将水印的颜色变成白色(255, 255, 255)。

首先获取图片宽和高,用 itertools 模块获取宽和高的笛卡尔积作为像素点。每个像素点的颜色都由 前三位的 RGB 和 第四位的 Alpha 通道构成。Alpha 通道不需要,只要 RGB 数据。

def remove_img():
    image_file = input("请输入图片地址:")
 
    img = Image.open(image_file)
    width, height = img.size
 
    for pos in product(range(width), range(height)):
        rgb = img.getpixel(pos)[:3]
        print(rgb)

图片去水印

用微信截图的方式查看水印像素点的 RGB。

1941d470a50ef2a5b2cde3ee6827077c.png

可以看到水印的 RGB 是 (210, 210, 210),这里用 RGB 的和超过 620 就判定是水印点,此时将像素颜色替换为白色。最后保存图片。

rgb = img.getpixel(pos)[:3]
if(sum(rgb) >= 620):
    img.putpixel(pos, (255, 255, 255))
 
img.save('d:/qsy.png')

示例结果:

06e69e34c27fcfba5f71e6eb1bb1bad4.png

PDF 去水印

PDF 去水印的原理和图片去水印的原理大致相同,用 PyMuPDF 打开 pdf 文件后,将 pdf 的每一页都转换为图片 pixmap,pixmap 有它自己的 RGB,只需要将 pdf 水印中的 RGB 改为(255, 255, 255) 最后保存为图片。

def remove_pdf():
    page_num = 0
    pdf_file = input("请输入 pdf 地址:")
    pdf = fitz.open(pdf_file);
    for page in pdf:
        pixmap = page.get_pixmap()
        for pos in product(range(pixmap.width), range(pixmap.height)):
            rgb = pixmap.pixel(pos[0], pos[1])
            if(sum(rgb) >= 620):
                pixmap.set_pixel(pos[0], pos[1], (255, 255, 255))
        pixmap.pil_save(f"d:/pdf_images/{page_num}.png")
        print(f"第{page_num}水印去除完成")
        page_num = page_num + 1

示例结果:

a339227d96384fc49f15a76865d5fec2.png

图片转为 pdf

图片转 pdf 需要注意的是图片的排序,数字文件名必须先转换为 int 类型后排序。用 PyMuPDF 模块打开图片后将图片用 convertToPDF() 函数转成单页的 pdf。插入到新的 pdf 文件中。

def pic2pdf():
    pic_dir = input("请输入图片文件夹路径:")
    
    pdf = fitz.open()
    img_files = sorted(os.listdir(pic_dir),key=lambda x:int(str(x).split('.')[0]))
    for img in img_files:
        print(img)
        imgdoc = fitz.open(pic_dir + '/' + img)  
        pdfbytes = imgdoc.convertToPDF()   
        imgpdf = fitz.open("pdf", pdfbytes)
        pdf.insertPDF(imgpdf)       
    pdf.save("d:/demo.pdf")         
    pdf.close()

总结

pdf 和图片上恼人的水印终于可以在强大的 python 面前消失了。小伙伴们学会了吗?

到此这篇关于python为图片和PDF去水印详解的文章就介绍到这了,更多相关python图片和PDF去水印内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python实现顺时针打印矩阵

    python实现顺时针打印矩阵

    这篇文章主要为大家详细介绍了python实现顺时针打印矩阵,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-03-03
  • PyInstaller安装包瘦身指南

    PyInstaller安装包瘦身指南

    直接pyinstaller打包的话,如果当前pip环境安装的库较多的话,会导致生成的可执行exe程序文件过大,本文详细的介绍了PyInstaller安装包瘦身的过程,感兴趣的可以了解一下
    2023-03-03
  • python3+selenium实现126邮箱登陆并发送邮件功能

    python3+selenium实现126邮箱登陆并发送邮件功能

    这篇文章主要为大家详细介绍了python3+selenium实现126邮箱登陆并发送邮件功能,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-01-01
  • openCV实现图像融合的示例代码

    openCV实现图像融合的示例代码

    图像融合是两幅图片叠加在一起,本文主要介绍了openCV实现图像融合的示例代码,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-03-03
  • Pyramid添加Middleware的方法实例

    Pyramid添加Middleware的方法实例

    在pylons的文档中,有专门讲过如何添加自己的Middleware, 通过这些Middleware, 我们可以改变输入和输出。这也是WSGI(Web Server Gateway Interface)的优势和精髓所在,那么在pyramid中,我们如何添加Middleware呢
    2013-11-11
  • Python动态赋值的陷阱知识点总结

    Python动态赋值的陷阱知识点总结

    在本文中我们给大家整理了关于Python动态赋值的陷阱的相关知识点内容,需要的朋友们学习下。
    2019-03-03
  • 一起解密Python中的*args和**kwargs无限可能的函数参数

    一起解密Python中的*args和**kwargs无限可能的函数参数

    这篇文章主要来跟大家一起解密Python中的*args和**kwargs无限可能的函数参数使用的灵活性,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-06-06
  • Python Subprocess模块原理及实例

    Python Subprocess模块原理及实例

    这篇文章主要介绍了Python Subprocess模块原理及实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-08-08
  • 如何对Python编译PyInstaller打包生成的exe文件进行反编译生成pyc、py源代码文件

    如何对Python编译PyInstaller打包生成的exe文件进行反编译生成pyc、py源代码文件

    很多开发者没有发布源程序代码,而是将代码封装为exe可执行文件,这样不仅更有利于程序传播,下面这篇文章主要介绍了如何对Python编译PyInstaller打包生成的exe文件进行反编译生成pyc、py源代码文件的相关资料,需要的朋友可以参考下
    2023-01-01
  • Python实现图像压缩和图像处理详解

    Python实现图像压缩和图像处理详解

    随着现在短视频类越来越火,随之而来的就是大量的视频图像的处理。这篇文章主要为大家介绍了Python如何一键实现图像压缩和图像处理,希望对你们有所帮助
    2022-07-07

最新评论