通过C#获取PDF中指定文本或所有文本的字体信息

 更新时间:2025年01月17日 09:05:10   作者:Eiceblue  
在设计和出版行业中,字体的选择和使用对最终作品的质量有着重要影响,然而,有时我们可能会遇到包含未知字体的PDF文件,这使得我们无法准确地复制或修改文档,本文将介绍如何通过C#获取PDF中指定文本或所有文本的字体信息,需要的朋友可以参考下

引言

在设计和出版行业中,字体的选择和使用对最终作品的质量有着重要影响。然而,有时我们可能会遇到包含未知字体的PDF文件,这使得我们无法准确地复制或修改文档。获取PDF中的字体信息可以解决这个问题,让我们能够更好地处理这些文件。无论是用于重新设计、文档翻译还是个人学习,了解如何获取PDF中的字体信息都是一项非常有用的技能。本文将介绍如何通过C#获取PDF中指定文本或所有文本的字体信息。

获取字体的操作需要用到第三方库 Spire.PDF for .NET,我们可以通过以下链接下载产品包后手动添加引用,或者直接通过NuGet安装。

点击下载 Spire.PDF for.NET

C# 获取PDF中指定文本的字体信息

通过使用Spire.PDF for .NET提供的 PdfTextFragment 类下的各属性,我们可以获取字体名称、大小、样式和颜色。主要实现步骤如下

  1. 加载 PDF 文件,然后获取指定页面。
  2. 通过 PdfTextFinder.Find() 方法查找指定文本,并返回一个 PdfTextFragment 对象。
  3. 创建一个StringBuilder实例来存储信息。
  4. 遍历所有查找到的文本
  5. 通过 PdfTextFragment.Text 属性获取找到的文本内容。
  6. 通过 PdfTextFragment.TextStates[0].FontName 属性获取找到的文本的字体名称。
  7. 通过 PdfTextFragment.TextStates[0].FontSize 属性获取找到的文本的字体大小。
  8. 通过 PdfTextFragment.TextStates[0].FontFamily 属性获取找到的文本的字体类型。
  9. 通过 PdfTextFragment.TextStates[0].IsBold 和 PdfTextFragment.TextStates[0].IsSimulateBold 属性指示字体是否加粗或模拟加粗(字体样式设置为填充和描边)。
  10. 通过 PdfTextFragment.TextStates[0].IsItalic 属性指示字体是否为斜体.
  11. 使用 PdfTextFragment.TextStates[0].ForegroundColor 属性获取找到的文本的字体颜色。
  12. 将获取到的字体信息添加到StringBuilder实例中,然后写入 txt 文件。

C#代码:

using Spire.Pdf;
using Spire.Pdf.Texts;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Text;

namespace GetTextFont
{
    class Program
    {
        static void Main(string[] args)
        {
            // 加载PDF文件
            PdfDocument pdf = new PdfDocument();
            pdf.LoadFromFile("E:\\PythonPDF\\南极.pdf");

            // 获取第一页
            PdfPageBase page = pdf.Pages[0];

            // 创建PdfTextFinder实例
            PdfTextFinder finds = new PdfTextFinder(page);

            // 查找页面上指定文本
            finds.Options.Parameter = TextFindParameter.None;
            List<PdfTextFragment> result = finds.Find("南极洲");

            // 创建StringBuilder实例
            StringBuilder str = new StringBuilder();

            // 遍历所有查找到的文本
            foreach (PdfTextFragment find in result)
            {
                // 获取文本
                string text = find.Text;
                // 获取字体名
                string FontName = find.TextStates[0].FontName;
                // 获取字体大小
                float FontSize = find.TextStates[0].FontSize;
                // 获取字体类型
                string FontFamily = find.TextStates[0].FontFamily;
                // 判断是否加粗或模拟加粗
                bool IsBold = find.TextStates[0].IsBold;
                bool IsSimulateBold = find.TextStates[0].IsSimulateBold;
                // 判断是否为斜体
                bool IsItalic = find.TextStates[0].IsItalic;
                // 获取字体颜色
                Color color = find.TextStates[0].ForegroundColor;

                // 将获取到的信息添加到StringBuilder实例中
                str.AppendLine(text);
                str.AppendLine("字体名: " + FontName);
                str.AppendLine("字体大小: " + FontSize);
                str.AppendLine("字体系列: " + FontFamily);
                str.AppendLine("是否加粗: " + IsBold);
                str.AppendLine("是否模拟加粗: " + IsSimulateBold);
                str.AppendLine("是否为斜体: " + IsItalic);
                str.AppendLine("字体颜色:" + color);
                str.AppendLine(" ");
            }
            // 写入一个txt文件
            File.WriteAllText("Pdf字体.txt", str.ToString());
        }
    }
}

C# 获取PDF文档中用到的所有字体信息

PdfUsedFont 类表示PDF文档中使用到的字体,它提供了不同的属性来帮助我们获取字体名称、大小、类型和样式等。主要实现步骤如下:

  1. 加载 PDF 文件。
  2. 通过 PdfDocument.UsedFonts 属性获取 PDF 文件中使用的所有字体。
  3. 创建一个StringBuilder实例来存储信息。
  4. 遍历所有使用到的字体。
  5. 通过 PdfUsedFont.Name 属性获取字体名称。
  6. 通过 PdfUsedFont.Size 属性获取字体大小。
  7. 通过 PdfUsedFont.Type 属性获取字体类型。
  8. 通过 PdfUsedFont.Style 属性获取字体样式。
  9. 将获取到的字体信息添加到StringBuilder实例中,然后写入 txt 文件。

C#代码:

using Spire.Pdf;
using Spire.Pdf.Graphics.Fonts;
using Spire.Pdf.Graphics;
using System.IO;
using System.Text;

namespace GetTextFont
{
    class Program
    {
        static void Main(string[] args)
        {
            // 加载PDF文件
            PdfDocument pdf = new PdfDocument();
            pdf.LoadFromFile("E:\\PythonPDF\\南极.pdf");

            // 获取PDF文件中使用到的字体
            PdfUsedFont[] fonts = pdf.UsedFonts;

            // 创建StringBuilder实例
            StringBuilder str = new StringBuilder();

            // 遍历所有使用到的字体
            foreach (PdfUsedFont font in fonts)
            {
                // 获取字体名
                string name = font.Name;

                // 获取字体大小
                float size = font.Size;

                // 获取字体类型
                PdfFontType type = font.Type;

                // 获取字体样式
                PdfFontStyle style = font.Style;

                // 将获取到的信息添加到StringBuilder实例中
                str.AppendLine("字体名称: " + name + " 字体大小: " + size + " 字体类型: " + type + " 字体样式: " + style);

            }

            // 写入一个txt文件
            File.WriteAllText("Pdf字体信息.txt", str.ToString());
        }
    }
}

到此这篇关于通过C#获取PDF中指定文本或所有文本的字体信息的文章就介绍到这了,更多相关C#获取PDF文本信息内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • C# 常用不同日志库的区别与示例解析

    C# 常用不同日志库的区别与示例解析

    C# 作为一种流行的编程语言,有许多优秀的日志库可供选择,本文将介绍一些常见的 C# 日志库,包括 NLog、log4net、Serilog 和 Microsoft.Extensions.Logging,并通过示例展示它们的使用方法及区别,感兴趣的朋友一起看看吧
    2024-06-06
  • 说说C#的async和await的具体用法

    说说C#的async和await的具体用法

    本篇文章主要介绍了说说C#的async和await的具体用法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-09-09
  • C#泛型集合类型实现添加和遍历

    C#泛型集合类型实现添加和遍历

    这篇文章介绍了C#泛型集合类型实现添加和遍历的方法,文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-08-08
  • C#实现日历效果

    C#实现日历效果

    这篇文章主要为大家详细介绍了C#实现日历效果,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-06-06
  • C# 前端无插件打印导出实现方式详解

    C# 前端无插件打印导出实现方式详解

    本文讲述了使用C#实现前端无插件的打印和导出功能,介绍了相关技术和方法,适合需要在项目中实现相应功能的开发者参考
    2024-10-10
  • C# WCF简单入门图文教程(VS2010版)

    C# WCF简单入门图文教程(VS2010版)

    这篇文章主要介绍了WCF简单入门图文教程,版本是VS2010版,帮助大家轻松学习了解DataContract、ServiceContract等特性,感兴趣的小伙伴们可以参考一下
    2016-03-03
  • c# for循环中创建线程执行问题

    c# for循环中创建线程执行问题

    这篇文章主要介绍了有关c# for循环中创建线程执行问题,下面文章将将以举例的方式展开for循环中创建线程执行问题的内容,需要的朋友可以参考一下,希望对你有所帮助
    2021-11-11
  • C# 将Excel转为PDF时自定义表格纸张大小的代码思路

    C# 将Excel转为PDF时自定义表格纸张大小的代码思路

    这篇文章主要介绍了C# 将Excel转为PDF时自定义表格纸张大小的代码思路,转换前的页面大小设置为该版本中写入的新功能,在旧版本和免费版本中暂不支持,感兴趣的朋友跟随小编一起看看实例代码
    2021-11-11
  • C#基于XNA生成随机颜色的方法

    C#基于XNA生成随机颜色的方法

    这篇文章主要介绍了C#基于XNA生成随机颜色的方法,涉及XNA Color类的使用技巧,需要的朋友可以参考下
    2015-06-06
  • LZW数据压缩算法的原理分析

    LZW数据压缩算法的原理分析

    我希望通过本文的介绍,能给那些目前不太了解lzw算法和该算法在gif图像中应用,但渴望了解它的人一些启发和帮助。抛砖引玉而已,更希望兄弟们提出宝贵的意见。
    2016-06-06

最新评论