Node.js实现文本与pdf相互转换的代码详解

 更新时间:2025年07月09日 10:24:44   作者:Heo  
在IT行业中,文档格式转换是日常工作中的常见需求,Word与PDF是两种广泛应用的文档格式,它们各有优势,但有时需要相互转换以满足特定场景的需求,本篇将详细讲解如何使用Node.js实现文本与pdf相互转换,需要的朋友可以参考下

pdf 转文本

主要使用 pdf-parse 这个库,直接识别提取我们 pdf 文件中的文字。

const express = require("express");
const fs = require("fs");
const PDFParser = require("pdf-parse");
const cors = require("cors");

const pdfFilePath = "./xxx_实习生.pdf";

const app = express();

// 解决跨域问题
app.use(cors());
app.use(express.static(__dirname));
app.use(express.json());

app.post("/form2pdf", (req, res) => {
  console.log(req.body);
  const str = "";

    // 1. 读取pdf文件
  fs.readFile(pdfFilePath, (err, pdfBuffer) => {
    if (err) {
      console.log(err);
      return;
    }

    PDFParser(pdfBuffer).then((pdfData) => {
      const pages = pdfData.text.split("\n\n");
      console.log(pages);
      let str;
      for (let i = 1; i < pages.length; i++) str = str + pages[i];
      console.log(str);
    });
  });
});

app.listen(3000, () => {
  console.log("Server is running on port 3000");
});

文本转 pdf

主要使用 pdfkit 这个库将文本转为pdf文件。

const express = require("express");
const fs = require("fs");
const cors = require("cors");
const PDFDocument = require("pdfkit");

const app = express();

// 解决跨域问题
app.use(cors());
app.use(express.static(__dirname));
app.use(express.json());

app.post("/form2pdf", (req, res) => {
  console.log(req.body);
  const str = "";
  // 使用 pdfkit 生成pdf

  // 创建 PDF 文档
  const doc = new PDFDocument({
    margin: 50, // 控制上下左右留白
  });

  // 输出到文件
  // 如果有同名的 直接覆盖
  doc.pipe(fs.createWriteStream("output.pdf"));

  // ========== Header ==========
  function addHeader(doc) {
    doc.fontSize(20).text(req.body.name, { align: "center" }).moveDown();
    doc
      .moveTo(50, doc.y) // 从左边开始画横线
      .lineTo(550, doc.y) // 到右边
      .stroke();
    doc.moveDown();
  }

  // ========== Footer ==========
  function addFooter(doc) {
    const range = doc.bufferedPageRange(); // 所有页

    for (let i = range.start; i < range.start + range.count; i++) {
      doc.switchToPage(i);
      doc
        .fontSize(10)
        .fillColor("gray")
        .text(`第 ${i + 1} 页`, 0, doc.page.height - 50, {
          align: "center",
        });
    }
  }

  // ========== Body ==========
  function addBody(doc) {
    doc.fontSize(12);
    doc.text(req.body.name + " " + req.body.sex + " " + req.body.age, {
      align: "left",
      lineGap: 4,
    });
  }

  // 添加内容
  addHeader(doc);
  addBody(doc);

  // 结束前添加 footer(多页也有效)
  doc.end();
  doc.on("end", () => {
    addFooter(doc);
  });

  // 把后端的pdf地址返回给前端
  res.json({
    code: 200,
    data: "http://localhost:3000/output.pdf",
  });
  res.send("PDF generated successfully!");
});

app.listen(3000, () => {
  console.log("Server is running on port 3000");
});

浏览器缓存引发的小问题

之前自己写 demo,遇到一个小问题,可能刚刚入门的小白一时找不到原因,特此记录下:

  • 后端生成pdf文件,但是名称都相同(而且由于前端通过 iframe 渲染 pdf 的url 地址,url 地址也相同)
  • 尽管内容不同,但是浏览器发现相同的名称pdf(静态文件),会继续使用缓存,导致后端pdf虽然重新覆盖生成,但是前端浏览器中的 iframe 渲染的 pdf 还是旧的(缓存中的)。

解决方法是:

<iframe :src="url" width="100%" height="1200px"></iframe>

const onSubmit = () => {
  axios.post("http://localhost:3000/form2pdf", form).then((res) => {
    url.value = res.data.data + "?t=" + Date.now();
    console.log(url);
  });
};

添加一个时间戳来阻止浏览器继续使用缓存,以保证每次重新请求都可以渲染最新的pdf 文件数据。

  1. 浏览器为什么会缓存 PDF?

静态资源(如 PDF、图片、JS、CSS)默认会被浏览器缓存。
这是因为 Express 的 express.static() 中间件会自动为静态资源设置缓存相关的 HTTP 头(如 Cache-Control),让浏览器下次访问同样的 URL 时直接用本地缓存,加快加载速度、减少服务器压力。

只要 URL 一样,且没有特殊的禁止缓存设置,浏览器就会优先用缓存。

如果在 /form2pdf 路由里加了:

res.setHeader("Cache-Control", 'no-store');

但这个 header 只作用于 /form2pdf 这个接口的响应,output.pdf 这个静态文件的响应没有影响
output.pdf 的响应是由 express.static(__dirname) 处理的,和接口响应头无关。

  1. 为什么加参数能解决?

当你访问 output.pdf?t=xxx 时,浏览器认为这是一个全新的资源(即使实际文件一样),所以会重新请求服务器,不会用缓存。

  1. 如何让静态 PDF 不被缓存?

可以让 Express 静态资源响应时加上禁止缓存的 header:

app.use(express.static(__dirname, {
  setHeaders: (res, path) => {
    if (path.endsWith('.pdf')) {
      res.setHeader('Cache-Control', 'no-store');
    }
  }
}));

这样浏览器每次都会重新请求 PDF 文件。

到此这篇关于Node.js实现文本与pdf相互转换的代码详解的文章就介绍到这了,更多相关Node.js文本与pdf互转内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Node.js入门教程:在windows和Linux上安装配置Node.js图文教程

    Node.js入门教程:在windows和Linux上安装配置Node.js图文教程

    这篇文章主要介绍了Node.js入门教程:在windows和Linux上安装配置Node.js的方法,本文图文并茂,步骤明细,是学习安装node.js的绝佳教程,需要的朋友可以参考下
    2014-08-08
  • Node.js中path模块操作路径的基本使用

    Node.js中path模块操作路径的基本使用

    这篇文章主要介绍了Node.js中path模块操作路径的基本使用,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-08-08
  • Node.js基础模块babel使用详解

    Node.js基础模块babel使用详解

    这篇文章主要介绍了Node.js基础模块babel使用详解,babel是由一系列的组件构成,所以我们在开发过程中,要从自行配置组件来开始使用babel的功能
    2022-06-06
  • node连接MySQL数据库的3种方式总结

    node连接MySQL数据库的3种方式总结

    现在前端基本上都会用一些NodeJs,想必也想自己写一些API或者个人博客的后台系统,这些就离不开连接数据库的问题,下面这篇文章主要给大家介绍了关于node连接MySQL数据库的3种方式,需要的朋友可以参考下
    2022-08-08
  • nodejs创建简易web服务器与文件读写的实例

    nodejs创建简易web服务器与文件读写的实例

    下面小编就为大家带来一篇node js系列课程-创建简易web服务器与文件读写的实例。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-09-09
  • node.js中的http.request方法使用说明

    node.js中的http.request方法使用说明

    这篇文章主要介绍了node.js中的http.request方法使用说明,本文介绍了http.request的方法说明、语法、接收参数、使用实例和实现源码需要的朋友可以参考下
    2014-12-12
  • node.js中fs文件系统模块的使用方法实例详解

    node.js中fs文件系统模块的使用方法实例详解

    这篇文章主要介绍了node.js中fs文件系统模块的使用方法,结合实例形式详细分析了node.js fs文件系统模块各种常见方法的基本使用技巧与相关操作注意事项,需要的朋友可以参考下
    2020-02-02
  • 基于nodejs的微信JS-SDK简单应用实现

    基于nodejs的微信JS-SDK简单应用实现

    这篇文章主要介绍了基于nodejs的微信JS-SDK简单应用实现,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2019-05-05
  • nodejs环境使用Typeorm连接查询Oracle数据

    nodejs环境使用Typeorm连接查询Oracle数据

    这篇文章主要介绍了nodejs环境使用Typeorm连接查询Oracle数据,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-12-12
  • node.js 全局变量的具体使用

    node.js 全局变量的具体使用

    这篇文章主要介绍了node.js 全局变量的具体使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-04-04

最新评论