在.NET框架使用C#实现PDF文件转为HTML格式的步骤

 更新时间:2025年01月06日 08:52:23   作者:Eiceblue  
HTML作为一种开放标准的网页标记语言,具有跨平台、易于浏览和搜索引擎友好的特性,通过将PDF文件转换为HTML格式,我们可以更方便地在浏览器中展示PDF文档内容,本文将介绍如何在.NET框架使用C#将PDF文件转换为HTML格式,需要的朋友可以参考下

引言

HTML作为一种开放标准的网页标记语言,具有跨平台、易于浏览和搜索引擎友好的特性,使得内容能够在多种设备上轻松访问并优化了在线分享与互动。通过将PDF文件转换为HTML格式,我们可以更方便地在浏览器中展示PDF文档内容,同时也更容易集成到更复杂的HTML页面中。使用C#在.NET框架下我们可以实现更快的转换过程,以及转换的自动化进行。本文将介绍如何在.NET框架使用C#将PDF文件转换为HTML格式。

文所使用的方法需要用到免费的Free Spire.PDF for .NET,NuGet:Install-Package FreeSpire.PDF

文中所用的示例PDF文档:

用C#直接转换PDF文件为HTML格式

我们可以使用PdfDocument.LoadFromFile()方法从文件载入PDF文档,然后再使用PdfDocument.SaveToFile(string: fileName, FileFormat.HTML)方法将PDF文档直接转换为HTML文件并保存。以下是操作步骤示例:

  1. 导入所需模块。
  2. 创建PdfDocument实例,并使用PdfDocument.LoadFromFile()方法从文件载入PDF文档。
  3. 使用PdfDocument.SaveToFile(string: fileName, FileFormat.HTML)方法将PDF文档直接转换为HTML格式并保存到文件。
  4. 释放资源。

代码示例

using Spire.Pdf;

namespace PDFToHTML
{
    class Program
    {
        static void Main(string[] args)
        {
            // 创建PdfDocument实例
            PdfDocument pdf = new PdfDocument();

            // 载入PDF文件
            pdf.LoadFromFile("Sample.pdf");

            // 将PDF转换为HTML并保存
            pdf.SaveToFile("output/PDFToHTML.html", FileFormat.HTML);

            // 释放资源
            pdf.Dispose();
        }
    }
}

运行结果

转换PDF到HTML时自定义转换选项

在载入 PDF 文档后,可以通过访问文档的PdfDocument.ConvertOptions属性获取PdfConvertOptions实例。随后,可调用PdfConvertOptions.SetPdfToHtmlOptions()方法设置转换选项。该方法接受以下四个参数:

  • bool: 是否将 SVG 嵌入到 HTML 中;
  • bool: 是否将图像嵌入到 HTML 中;
  • int: 单文件最大页数;
  • bool: 是否使用高质量嵌入 SVG。
    以下是具体操作步骤的示例:
  1. 导入所需模块。
  2. 创建PdfDocument实例,并使用PdfDocument.LoadFromFile()方法从文件载入PDF文档。
  3. 访问文档的PdfDocument.ConvertOptions属性获取PdfConvertOptions实例。
  4. 调用PdfConvertOptions.SetPdfToHtmlOptions()方法设置转换选项。
  5. 使用PdfDocument.SaveToFile(string: fileName, FileFormat.HTML)方法将PDF文档转换为HTML格式并保存到文件。
  6. 释放资源。

代码示例

using Spire.Pdf;

namespace PDFToHTML
{
    class Program
    {
        static void Main(string[] args)
        {
            // 创建PdfDocument实例
            PdfDocument pdf = new PdfDocument();

            // 载入PDF文件
            pdf.LoadFromFile("Sample.pdf");

            // 访问ConvertOptions属性
            PdfConvertOptions toHtmlOptions = pdf.ConvertOptions;

            // 设置转换HTML选项
            toHtmlOptions.SetPdfToHtmlOptions(false, true, 5, false);

            // 将PDF转换为HTML并保存
            pdf.SaveToFile("output/PDFToHTML.html", FileFormat.HTML);

            // 释放资源
            pdf.Dispose();
        }
    }
}

运行结果

在字节流中实现PDF到HTML的转换

除了从磁盘载入PDF文件转换为HTML格式外,我们还可以使用PdfDocument.LoadFromStream()方法直接载入流中的PDF文档,然后使用PdfDocument.SaveToStream(Stream: stream, FileFormat.HTML)将PDF文档转换为HTML文件流。以下是操作步骤示例:

  1. 导入所需模块。
  2. 创建MemoryStream实例或使用现有实例。
  3. 创建PdfDocument实例,使用PdfDocument.LoadFromStream()从流载入PDF文档。
  4. 使用PdfDocument.SaveToStream(Stream: stream, FileFormat.HTML)将PDF文档转换为HTML文件流。
  5. 将流写入文件或根据需要进行其他操作。
  6. 释放资源。

代码示例

using Spire.Pdf;

namespace PDFToHTML
{
    class Program
    {
        static void Main(string[] args)
        {
            // 创建Stream实例或使用现有实例
            MemoryStream stream = new MemoryStream();
            File.OpenRead("Sample.pdf").CopyTo(stream);

            // 创建PdfDocument实例
            PdfDocument pdf = new PdfDocument();

            // 从流中载入PDF文件
            pdf.LoadFromStream(stream);

            // 将PDF转换为HTML并保存到流
            pdf.SaveToStream(stream, FileFormat.HTML);
            
            
            // 将流写入文件或根据需要进行其他操作
            File.WriteAllBytes("output/PDFToHTMLStream.html", stream.ToArray());

            // 释放资源
            pdf.Dispose();
        }
    }
}

运行结果

本文介绍如何在.NET框架使用C#将PDF转换为HTML格式,提供步骤介绍及代码示例。

到此这篇关于在.NET框架使用C#实现PDF文件转为HTML格式的步骤的文章就介绍到这了,更多相关.NET C#实现PDF转HTML内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 详解如何利用C#实现汉字转拼音功能

    详解如何利用C#实现汉字转拼音功能

    这篇文章主要为大家详细介绍了如何利用C#实现汉字转拼音的功能,文中的示例代码讲解详细,对我们学习C#有一定的帮助,感兴趣的小伙伴可以跟随小编一起了解一下
    2022-12-12
  • c# openxml 删除xlsx、xls的外链示例代码

    c# openxml 删除xlsx、xls的外链示例代码

    要删除一个 Excel 文件(.xlsx)中的外部链接(external links),你可以使用 OpenXML SDK,本文演示如何使用 OpenXML SDK 删除外部链接,感兴趣的朋友一起看看吧
    2024-01-01
  • WCF实现的计算器功能实例

    WCF实现的计算器功能实例

    这篇文章主要介绍了WCF实现的计算器功能,结合具体实例形式较为详细的分析了WCF实现计算器功能的具体步骤与相关操作技巧,需要的朋友可以参考下
    2017-06-06
  • C#获取动态生成的CheckBox值

    C#获取动态生成的CheckBox值

    checkbox是VS2012的常用控件之一,可以方便的为某些功能取消或启用,下面教你如何简单使用checkbox。本文通过两种方法给大家介绍,需要的朋友一起看看吧
    2015-09-09
  • C#对DataTable中的某列进行分组

    C#对DataTable中的某列进行分组

    这篇文章介绍了C#对DataTable某列进行分组的方法,文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-03-03
  • Unity实现简单换装系统

    Unity实现简单换装系统

    这篇文章主要为大家详细介绍了Unity实现简单换装系统,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-04-04
  • C#加载嵌入到资源的非托管dll

    C#加载嵌入到资源的非托管dll

    很多朋友遇到过这样一个问题需要加载非win32的非托管dll,纠结该怎么操作呢,下面通过代码给大家介绍下C#加载嵌入到资源的非托管dll的方法,感兴趣的朋友一起看看吧
    2021-05-05
  • 基于NET Core 的Nuget包制作、发布和运用流程解析(完整过程)

    基于NET Core 的Nuget包制作、发布和运用流程解析(完整过程)

    这篇文章主要介绍了基于NET Core 的Nuget包制作、发布和运用流程,本文通过图文并茂的形式给大家介绍了Nuget包制作过程,感兴趣的朋友跟随小编一起看看吧
    2022-02-02
  • WPF实现动画效果(二)之From/To/By动画

    WPF实现动画效果(二)之From/To/By动画

    这篇文章介绍了WPF实现动画效果之From/To/By动画,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-06-06
  • C#读写config配置文件的方法

    C#读写config配置文件的方法

    下面小编就为大家带来一篇C#读写config配置文件的方法。小编觉的挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2016-12-12

最新评论