.NET使用DocNET库实现快速高效的操作PDF文档

更新时间：2025年07月21日 08:41:55 作者：追逐时光者

PDF 文档,作为日常工作中不可或缺的文档格式,广泛应用于各类场景,DocNET 是一个基于 .NET 开源操作库,下面我们来看看.NET如何使用DocNET库实现快速高效的操作PDF文档吧

前言

PDF 文档，作为日常工作中不可或缺的文档格式，广泛应用于各类场景。今天我们来讲讲在 .NET 中使用 DocNET 库快速高效的操作 PDF 文档。

项目介绍

DocNET 是一个基于 .NET 开源（MIT license）、跨平台（支持Windows、Linux和macOS平台）的旨在提供快速 PDF 编辑和数据提取的操作库。它是基于 Chromium 所使用的 PDFium C++ 库开发的 .NET Standard 2.0 封装库。

项目特性

PDF 提取功能：支持 PDF 版本、页数、页面宽度、页面高度、页面文本、字符字体大小等相关PDF信息提取。

PDF 编辑功能：支持分割 PDF 文档、合并 PDF 文档、解锁 PDF 文档。

支持渲染页面为图像、JPEG 图片转换为 PDF 文件等等。

项目源代码

创建DocNETExercises控制台应用

创建一个名为 DocNETExercises 的.NET 9 控制台应用：

Docnet.Core NuGet包安装

在 NuGet 包管理器中搜索 Docnet.Core 安装：

获取 PDF 文件页码和版本

 /// <summary>
        /// 获取 PDF 文件页码和版本
        /// </summary>
        public static void GetPDFPageCountAndVersion()
        {
            using var docReader = _docNetInstance.GetDocReader(FilePath, new PageDimensions(1080, 1920));
            var getPageCount = docReader.GetPageCount();
            var getPdfVersion = docReader.GetPdfVersion();
            Console.WriteLine($"PageCount：{getPageCount}，PdfVersion：{getPdfVersion}");
        }

获取 PDF 文件的文本内容

   /// <summary>
        /// 获取 PDF 文件的文本内容
        /// </summary>
        public static void GetPDFText()
        {
            using var docReader = _docNetInstance.GetDocReader(FilePath, new PageDimensions(1080, 1920));
            using var pageReader = docReader.GetPageReader(0); //注意pageIndex从0开始

            // 获取指定页面的文本（自动处理编码）
            string pageText = pageReader.GetText();

            Console.WriteLine(pageText);
        }

将 JPEG 图片转换为 PDF 文件

 /// <summary>
        /// 将 JPEG 图片转换为 PDF 文件
        /// </summary>
        public static void JPEGImageConvertToPDF()
        {
            var file = new JpegImage
            {
                Bytes = File.ReadAllBytes("Assets/image1.jpeg"),
                Width = 580,
                Height = 387
            };

            var bytes = _docNetInstance.JpegToPdf(new[] { file });

            File.WriteAllBytes("Assets/output_file.pdf", bytes);
        }

将 PDF 文件转换为图片

  /// <summary>
        /// 将 PDF 文件转换为图片
        /// </summary>
        public static void PDFConvertToImage()
        {
            using var docReader = _docNetInstance.GetDocReader(FilePath, new PageDimensions(1080, 1920));
            //指定第一页
            using var pageReader = docReader.GetPageReader(0);

            var rawBytes = pageReader.GetImage();
            var width = pageReader.GetPageWidth();
            var height = pageReader.GetPageHeight();
            var characters = pageReader.GetCharacters();

            using var bmp = new Bitmap(width, height, PixelFormat.Format32bppArgb);

            AddBytes(bmp, rawBytes);
            DrawRectangles(bmp, characters);

            using var stream = new MemoryStream();

            bmp.Save(stream, ImageFormat.Png);

            File.WriteAllBytes("Assets/output_image.png", stream.ToArray());
        }

        private static void AddBytes(Bitmap bmp, byte[] rawBytes)
        {
            var rect = new Rectangle(0, 0, bmp.Width, bmp.Height);

            var bmpData = bmp.LockBits(rect, ImageLockMode.WriteOnly, bmp.PixelFormat);
            var pNative = bmpData.Scan0;

            Marshal.Copy(rawBytes, 0, pNative, rawBytes.Length);
            bmp.UnlockBits(bmpData);
        }

        private static void DrawRectangles(Bitmap bmp, IEnumerable<Character> characters)
        {
            var pen = new Pen(Color.Red);

            using var graphics = Graphics.FromImage(bmp);

            foreach (var c in characters)
            {
                var rect = new Rectangle(c.Box.Left, c.Box.Top, c.Box.Right - c.Box.Left, c.Box.Bottom - c.Box.Top);
                graphics.DrawRectangle(pen, rect);
            }
        }

项目源码地址

更多项目实用功能和特性欢迎前往项目开源地址查看。

GitHub开源地址：https://github.com/GowenGit/docnet
本文示例源码地址：https://github.com/YSGStudyHards/DotNetExercises/tree/master/DocNETExercises

到此这篇关于.NET使用DocNET库实现快速高效的操作PDF文档的文章就介绍到这了,更多相关.NET操作PDF内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

.NET
PDF

简单几步实现vs2010对html5的支持
微软从来不会让程序员用记事本写代码，如今html5马上就要火起来vs2010怎么会不支持html5呢？月月bird我将vs2010支持html5的方法整理了一下。
2016-05-05
ASP.NET下对cookies的操作实现代码
ASP.NET下对cookies的操作实现代码，需要的朋友可以参考下。
2011-10-10
Asp.Net防止刷新重复提交数据的办法
最近在用Asp.Net编写点东西时遇到个问题：即用户在提交表单后按刷新就会重复提交数据，即所谓的“刷新重复提交”的问题。
2013-03-03
asp.net操作javascript:confirm返回值的两种方式
asp.net操作javascript:confirm返回值分为两种，不使用ajax、使用了ajax,不使用ajax,可以用StringBuilder来完成
2014-09-09
在asp.NET中字符串替换的五种方法
asp.NET中字符串替换方法小结
2008-11-11
获取Repeter的Item和ItemIndex/CommandArgument实现思路与代码
Repeater控件，放在ItemTemplate内的铵钮OnClick之后，获取Repeater的Item，ItemIndex，CommandArgument，CommandName以及绑定的字段值附演示动画感兴趣的朋友可以了解下
2013-01-01
ASP.NET 5升级后如何删除旧版本的DNX
这篇文章主要介绍了ASP.NET 5升级后如何删除旧版本的DNX，其实就是简单的四步走，就能轻松删除旧版本的DNX，感兴趣的小伙伴们可以参考一下
2015-11-11
在 .NET 项目中复制资源文件夹到生成目录的方法
本文主要介绍在使用 Visual Studio 进行调试和发布时,如何在 .NET 项目中复制资源文件夹到生成目录,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧
2024-03-03
.NET中创建对象的几种方式和对比
在 .net 中，创建一个对象最简单的方法是直接使用 new (), 在实际的项目中可能还会用到反射，本文就介绍了几种创建方法，感兴趣的可以了解一下
2021-07-07
关于尝试读取或写入受保护的内存。这通常指示其他内存已损坏。的解决方法
这篇文章主要介绍了尝试读取或写入受保护的内存。这通常指示其他内存已损坏。的解决方法，有需要的朋友可以参考一下
2013-12-12