Python实现为PDF大文件批量去除水印

更新时间：2023年05月23日 09:04:41 作者：力语

在阅读过程中如果遇到一些带有水印的资料是比较烦心的，而市面上去水印的功能有多要收费且很不方便，那么，如何通过Python来对这类图片水印进行去除呢，本文就来和大家分享一下实现方法吧

导入

在阅读过程中如果遇到一些带有水印的资料是比较烦心的，如下图所示，水印以及类似的内容会影响我们的阅读体验，而市面上去水印的功能有多要收费且很不方便，那么，如何通过Python来对这类图片水印进行去除呢？

适用场景：本教程适合批量去除文件量较大的PDF文档内的图片水印。

使用软件：Python；

需安装第三方库：PIL，fitz，pymupdf

pip install PIL
pip install fitz
pip install pymupdf

不说废话，先把代码贴在前面。

from PIL import Image
import fitz
import os
def replace_color(img_path):
    new_color = (255, 255, 255, 255)
    for filename in os.listdir(img_path):
        image = Image.open(os.path.join(img_path, filename))
        new_pixels = [new_color if pixel == (220,220,220) else pixel for pixel in image.getdata()]
        new_image = Image.new(image.mode, image.size)
        new_image.putdata(new_pixels)
        new_image.save(os.path.join(img_path, filename))
def convert_pdf_to_images(img_path,doc):
    for i, page in enumerate(doc):
        pix = page.getPixmap(matrix=fitz.Matrix(2, 2))
        img_output_path = os.path.join(img_path, f"{i+1:04d}.jpg")
        pix.writePNG(img_output_path)
def creat_file(img_path):
    if not os.path.exists(img_path):
        os.makedirs(img_path)
    else:
        for root, dirs, files in os.walk(img_path, topdown=False):
            for name in files:
                os.remove(os.path.join(root, name))
            for name in dirs:
                os.rmdir(os.path.join(root, name))
def convert_images_to_pdf(img_path, output_path):
    image_list = []
    for filename in os.listdir(img_path):
        image_list.append(Image.open(os.path.join(img_path, filename)))
    image_list[0].save(output_path, save_all=True, append_images=image_list[1:])
def delete_watermark(file_path):
    folder_path = os.path.dirname(file_path)
    file_name = os.path.basename(file_path)
    output_path = os.path.join(folder_path, 'new_'+file_name)
    img_path = os.path.join(folder_path, f"img_{os.path.splitext(file_name)[0]}")
    creat_file(img_path)
    convert_pdf_to_images(img_path, doc=fitz.open(file_path))
    replace_color(img_path)
    convert_images_to_pdf(img_path, output_path)
if __name__ == "__main__":
    delete_watermark('E:\...\example.pdf')

正文

为了不影响阅读体验，一般水印都是由灰色或红色等与正文内容明显不同的颜色构成的。因此，要去除此类水印只需要判断出它是哪种颜色，然后将此颜色替换为背景色即可。

以上面图片中的水印为例，我们通过对水印部分进行取色可以看到，水印的 RGB 值为 (128, 130, 133)，背景色为白色（ RGB为 (255, 255, 255) ），那么我们只需要将 RGB 值为 (128, 130, 133) 的像素值替换为 (255, 255, 255) 即可实现图像水印的去除。

博主使用的取色工具为 Snipaste，也可以用 PS 等其它工具对水印取色。

首先需要将 PDF 中的一页信息提取出来，我们使用的是 fitz 库。

# 将 PDF 文件分解为图片
def convert_pdf_to_images(img_path,doc)
    for i, page in enumerate(doc):
        pix = page.getPixmap(matrix=fitz.Matrix(2, 2))
        img_output_path = os.path.join(img_path, f"{i+1}.jpg")
        pix.writePNG(img_output_path)

然后再对图片中的特定颜色进行替换

def replace_color(pixel, old_color, new_color):
    if pixel in old_color:
        return new_color
    else:
        return pixel
old_color = (128, 130, 133)
new_color = (255, 255, 255) 
# 遍历输入文件夹中的所有.jpg文件并进行颜色替换
for filename in os.listdir(input_folder):
    if filename.endswith('.jpg') or filename.endswith('.png'):
        # 打开图片并获取像素数据
        image = Image.open(os.path.join(input_folder, filename))
        pixels = list(image.getdata())
        # 遍历像素数据并进行颜色替换
        new_pixels = [replace_color(pixel, old_color, new_color) for pixel in pixels]
        # 将修改后的像素数据保存到新文件夹中
        new_image = Image.new(image.mode, image.size)
        new_image.putdata(new_pixels)
        new_image.save(os.path.join(output_folder, filename))

最后再将图片拼接起来则得到去水印后的 PDF

def convert_images_to_pdf(img_path, output_path):
    image_list = []
    for filename in sorted(os.listdir(img_path), key=lambda x: int(x.split('.')[0])):
        image_list.append(Image.open(os.path.join(img_path, filename)))
    image_list[0].save(output_path, save_all=True, append_images=image_list[1:])

将以上三个步骤合并，即可得到我们的最终代码

from PIL import Image
import fitz
import os
def replace_color(img_path):
    new_color = (255, 255, 255, 255)
    for filename in os.listdir(img_path):
        image = Image.open(os.path.join(img_path, filename))
        new_pixels = [new_color if pixel == (220,220,220) else pixel for pixel in image.getdata()]
        new_image = Image.new(image.mode, image.size)
        new_image.putdata(new_pixels)
        new_image.save(os.path.join(img_path, filename))
def convert_pdf_to_images(img_path,doc):
    for i, page in enumerate(doc):
        pix = page.getPixmap(matrix=fitz.Matrix(2, 2))
        img_output_path = os.path.join(img_path, f"{i+1:04d}.jpg")
        pix.writePNG(img_output_path)
def creat_file(img_path):
    if not os.path.exists(img_path):
        os.makedirs(img_path)
    else:
        for root, dirs, files in os.walk(img_path, topdown=False):
            for name in files:
                os.remove(os.path.join(root, name))
            for name in dirs:
                os.rmdir(os.path.join(root, name))
def convert_images_to_pdf(img_path, output_path):
    image_list = []
    for filename in os.listdir(img_path):
        image_list.append(Image.open(os.path.join(img_path, filename)))
    image_list[0].save(output_path, save_all=True, append_images=image_list[1:])
def delete_watermark(file_path):
    folder_path = os.path.dirname(file_path)
    file_name = os.path.basename(file_path)
    output_path = os.path.join(folder_path, 'new_'+file_name)
    img_path = os.path.join(folder_path, f"img_{os.path.splitext(file_name)[0]}")
    creat_file(img_path)
    convert_pdf_to_images(img_path, doc=fitz.open(file_path))
    replace_color(img_path)
    convert_images_to_pdf(img_path, output_path)
if __name__ == "__main__":
    delete_watermark('E:\...\example.pdf')

只需要对水印和背景进行取色，然后更改相应代码即可实现全自动 Python 去水印功能。

由于水印颜色并不总是某一个RGB值，而是一个范围，所以也可以使用 218<pixel[0]<244 and 218<pixel[1]<244 and 218<pixel[2]<244: 替换 pixel == (220,220,220)。

上述程序在运行过程中会根据文件名，产生一个"img_[文件名]"文件夹用于存放图片，以及产生一个去除水印后的"new_[文件名].pdf"文件。

若不需要查看单张图片的效果，也可以直接运行如下代码，在等待一段时间后会直接生成去除水印后的 PDF。

import fitz
with fitz.open('example.pdf') as doc:
    for page in doc:
        pix = page.getPixmap(matrix=fitz.Matrix(2, 2))
        pix = pix.applyFunction(lambda r,g,b: (255, 255, 255) if (r,g,b) == (220, 220, 220) else (r,g,b))
        new_page = fitz.new_page(width=pix.width, height=pix.height)
        new_page.insert_image(fitz.Rect(0, 0, pix.width, pix.height), pixmap=pix)
new_doc.save("new_example.pdf")

不过该方法生成的 PDF 文件会远大于原始文件，若是介意这点可继续用前一种方法。关于为什么该方法生成的文件变大这点，笔者目前也不清楚，如果有知道原因的朋友可以留下评论。

对于特别大的文件，可能导致 MemoryError，这时可以尝试先将图片分组，每组图片生成 pdf 文件后，再将多个 pdf 文件合并。

from PyPDF2 import PdfFileMerger
def convert_images_to_pdf2(img_path, pdf_path, output_path, num_group=10):
    image_list = []
    creat_file(pdf_path)
    pdf_file = []
    for i, filename in enumerate(os.listdir(img_path)):
        img = Image.open(os.path.join(img_path, filename))
        image_list.append(img)
        if (i + 1) % num_group == 0:
            split_pdf_path = os.path.join(pdf_path, f"{len(pdf_file)+1:04d}.pdf")
            image_list[0].save(split_pdf_path, save_all=True, append_images=image_list[1:])
            pdf_file.append(split_pdf_path)
            image_list = []
    pdfs = [os.path.join(pdf_path, f) for f in os.listdir(pdf_path)]
    merger = PdfFileMerger()
    for pdf in pdfs:
        merger.append(pdf)
    merger.write(os.path.join(pdf_path, output_path))
    merger.close()

以上就是Python实现为PDF大文件批量去除水印的详细内容，更多关于Python PDF去水印的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

python 使用paramiko模块进行封装，远程操作linux主机的示例代码
这篇文章主要介绍了python 使用paramiko模块进行封装，远程操作linux主机的示例代码，帮助大家更好的理解和使用python，感兴趣的朋友可以了解下
2020-12-12
python 自定义装饰器使用及原理详解(最新推荐)
本文详细介绍了Python装饰器的原理和使用方法,包括简单的装饰器、带参数的装饰器、原函数的传参、保留原函数元数据以及类装饰器,通过这些讲解,读者可以全面了解装饰器的强大功能和应用技巧,感兴趣的朋友一起看看吧
2025-02-02
浅谈python多线程和多线程变量共享问题介绍
这篇文章主要介绍了浅谈python多线程和多线程变量共享问题介绍，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-04-04
Python 下载及安装详细步骤
这篇文章主要介绍了载及安装Python详细步骤,安装python分三个步骤，具体安装方法本文给大家介绍的非常详细，需要的朋友可以参考下
2019-11-11
Python使用pymongo模块操作MongoDB的方法示例
这篇文章主要介绍了Python使用pymongo模块操作MongoDB的方法,结合实例形式分析了Python基于pymongo模块连接MongoDB数据库以及增删改查与日志记录相关操作技巧,需要的朋友可以参考下
2018-07-07
pandas使用函数批量处理数据(map、apply、applymap)
这篇文章主要介绍了pandas使用函数批量处理数据(map、apply、applymap)，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-11-11
Python爬取知乎图片代码实现解析
这篇文章主要介绍了Python爬取知乎图片代码实现解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-09-09
Python中解决schedule模块安装与使用问题的完整指南
在 Python 开发中,定时任务是一个非常常见的需求,schedule 是一个轻量级的 Python 库,专门用于简化定时任务的实现,本文将围绕 schedule 模块的安装与使用进行详细介绍,希望对大家有所帮助
2025-03-03
Python 中导入文本文件的示例代码
这篇文章主要介绍了如何在 Python 中导入文本文件,在Python中导入文本文件是很常见的操作，我们可以使用内置的open函数和with语句来读取或写入文本文件，需要的朋友可以参考下
2023-05-05
用Python的pandas框架操作Excel文件中的数据教程
这篇文章主要介绍了用Python的pandas框架操作Excel文件中的数据教程,包括单位格式转换、分类汇总等基本操作，需要的朋友可以参考下
2015-03-03

Python实现为PDF大文件批量去除水印

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具