Python将博客内容html导出为Markdown格式

 更新时间:2025年04月04日 16:12:27   作者:DriverWon  
Python将博客内容html导出为Markdown格式,通过博客url地址抓取文章,分析并提取出文章标题和内容,将内容构建成html,再转换为Markdown文件

一、为什么要搞?

有一部分博客文章需要搬家,逐个手动CV复制粘贴不仅效率低下,还容易出错,而且还面临格式调整的问题。为了简化这一流程,这里尝试使用Python来自动化处理,确保文章内容的准确性和一致性。

二、准备如何搞?

通过博客url地址抓取文章,分析并提取出文章标题和内容,将内容构建成html,再转换为Markdown文件。

在文章新家导入生成的Markdown文件。

三、说搞咱就搞!

抓取文章

在浏览器中(Google Chrome)输入博客网页地址,并F12打开开发者工具

选中Doc,在Response中看到响应结果是html文档

Python实搞:博客内容导出为Markdown_爬虫

在Headers中复制出User-Agent,以便模拟浏览器的请求

Python实搞:博客内容导出为Markdown_爬虫_02

Python代码

requests模拟浏览器抓取文章

import requests

blog_url = 'https://blog.csdn.net/qq_40605196/article/details/134268057'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'}
res = requests.get(url=blog_url, headers=headers)
print(res.text)

Python实搞:博客内容导出为Markdown_Python_03

可见Python抓取结果和浏览器中的响应结果一致

提取内容

分析响应结果html

标题在articleContentId中

Python实搞:博客内容导出为Markdown_实战_04

内容在content_views中

Python实搞:博客内容导出为Markdown_markdown_05

Python代码

使用parsel的Selector解析抓取到的文章,css选择器提取标题和内容

import parsel

selector = parsel.Selector(res.text)  # 创建Selector解析对象
title = selector.css('#articleContentId::text').get()  # CSS选择器提取文章标题
print(title)
print("="*100)
content = selector.css('#content_views').get()  # CSS选择器提取文章内容
print(content)

Python实搞:博客内容导出为Markdown_markdown_06

构建html

将提取到的content构建成html

html_content = f"""
<!doctype html>
<html lang="zh-CN">
<head>
    <meta charset="UTF-8">
    <title>Document</title>
</head>
<body>
{content}
</body>
</html>
"""

转存markdown

html2text将构建好的html转换为markdown文件

from html2text import html2text

markdown = html2text(html_content)  # html转换为markdown
md_path = f'{title}.md'
with open(md_path, 'w+', encoding='utf-8') as f:  # 保存为md文件
    f.write(markdown)

markdown文件内容如下图:

Python实搞:博客内容导出为Markdown_爬虫_07

搬入新家

在新家中导入保存的.md文件

Python实搞:博客内容导出为Markdown_Python_08

文章中的文字、图片、代码块以及格式都完美搬入新家

到此这篇关于Python将博客内容html导出为Markdown格式的文章就介绍到这了,更多相关Python将html导出为Markdown内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 一行Python命令实现批量加水印

    一行Python命令实现批量加水印

    工作的时候,尤其是自媒体工作者,必备水印添加工具以保护知识产权。本文为大家提供了一个快速加水印的方法:一行Python命令就能实现,快来了解一下吧
    2022-04-04
  • 详解如何使用pandas进行时间序列数据的周期转换

    详解如何使用pandas进行时间序列数据的周期转换

    时间序列数据是数据分析中经常遇到的类型,为了更多的挖掘出数据内部的信息,我们常常依据原始数据中的时间周期,将其转换成不同跨度的周期,下面以模拟的K线数据为例,演示如何使用pandas来进行周期转换,感兴趣的朋友可以参考下
    2024-05-05
  • 用Python远程登陆服务器的步骤

    用Python远程登陆服务器的步骤

    这篇文章主要介绍了用Python远程登陆服务器的步骤,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下
    2021-04-04
  • anaconda jupyter不能导入安装的lightgbm解决方案

    anaconda jupyter不能导入安装的lightgbm解决方案

    这篇文章主要介绍了anaconda jupyter不能导入安装的lightgbm解决方案,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03
  • Kmeans均值聚类算法原理以及Python如何实现

    Kmeans均值聚类算法原理以及Python如何实现

    这个算法中文名为k均值聚类算法,首先我们在二维的特殊条件下讨论其实现的过程,方便大家理解。
    2020-09-09
  • 详解Python的三种可变参数

    详解Python的三种可变参数

    这篇文章主要介绍了Python的三种可变参数,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-05-05
  • Django如何防止定时任务并发浅析

    Django如何防止定时任务并发浅析

    这篇文章主要给大家介绍了关于Django如何防止定时任务并发的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用Django具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2019-05-05
  • python命令行参数解析OptionParser类用法实例

    python命令行参数解析OptionParser类用法实例

    这篇文章主要介绍了python命令行参数解析OptionParser类用法实例,需要的朋友可以参考下
    2014-10-10
  • Python办公自动化之CSV文件的运用和管理

    Python办公自动化之CSV文件的运用和管理

    Python办公⾃动化是利⽤Python编程语⾔来创建脚本和程序,以简化、加速和⾃动化⽇常办公任务和⼯作流程的过程,本文主要来介绍一下如何利用Python进行CSV文件的运用和管理,感兴趣的可以了解下
    2023-12-12
  • Python requests设置代理的方法步骤

    Python requests设置代理的方法步骤

    这篇文章主要介绍了Python requests设置代理的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-02-02

最新评论