Python将博客内容html导出为Markdown格式

 更新时间:2025年04月04日 16:12:27   作者:DriverWon  
Python将博客内容html导出为Markdown格式,通过博客url地址抓取文章,分析并提取出文章标题和内容,将内容构建成html,再转换为Markdown文件

一、为什么要搞?

有一部分博客文章需要搬家,逐个手动CV复制粘贴不仅效率低下,还容易出错,而且还面临格式调整的问题。为了简化这一流程,这里尝试使用Python来自动化处理,确保文章内容的准确性和一致性。

二、准备如何搞?

通过博客url地址抓取文章,分析并提取出文章标题和内容,将内容构建成html,再转换为Markdown文件。

在文章新家导入生成的Markdown文件。

三、说搞咱就搞!

抓取文章

在浏览器中(Google Chrome)输入博客网页地址,并F12打开开发者工具

选中Doc,在Response中看到响应结果是html文档

Python实搞:博客内容导出为Markdown_爬虫

在Headers中复制出User-Agent,以便模拟浏览器的请求

Python实搞:博客内容导出为Markdown_爬虫_02

Python代码

requests模拟浏览器抓取文章

import requests

blog_url = 'https://blog.csdn.net/qq_40605196/article/details/134268057'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'}
res = requests.get(url=blog_url, headers=headers)
print(res.text)

Python实搞:博客内容导出为Markdown_Python_03

可见Python抓取结果和浏览器中的响应结果一致

提取内容

分析响应结果html

标题在articleContentId中

Python实搞:博客内容导出为Markdown_实战_04

内容在content_views中

Python实搞:博客内容导出为Markdown_markdown_05

Python代码

使用parsel的Selector解析抓取到的文章,css选择器提取标题和内容

import parsel

selector = parsel.Selector(res.text)  # 创建Selector解析对象
title = selector.css('#articleContentId::text').get()  # CSS选择器提取文章标题
print(title)
print("="*100)
content = selector.css('#content_views').get()  # CSS选择器提取文章内容
print(content)

Python实搞:博客内容导出为Markdown_markdown_06

构建html

将提取到的content构建成html

html_content = f"""
<!doctype html>
<html lang="zh-CN">
<head>
    <meta charset="UTF-8">
    <title>Document</title>
</head>
<body>
{content}
</body>
</html>
"""

转存markdown

html2text将构建好的html转换为markdown文件

from html2text import html2text

markdown = html2text(html_content)  # html转换为markdown
md_path = f'{title}.md'
with open(md_path, 'w+', encoding='utf-8') as f:  # 保存为md文件
    f.write(markdown)

markdown文件内容如下图:

Python实搞:博客内容导出为Markdown_爬虫_07

搬入新家

在新家中导入保存的.md文件

Python实搞:博客内容导出为Markdown_Python_08

文章中的文字、图片、代码块以及格式都完美搬入新家

到此这篇关于Python将博客内容html导出为Markdown格式的文章就介绍到这了,更多相关Python将html导出为Markdown内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python编程中对super函数的正确理解和用法解析

    Python编程中对super函数的正确理解和用法解析

    可能有人会想到,Python中既然可以直接通过父类名调用父类方法为什么还会存在super函数?其实,很多人对Python中的super函数的认识存在误区,本文我们就带来在Python编程中对super函数的正确理解和用法解析
    2016-07-07
  • Python使用eval函数执行动态标表达式过程详解

    Python使用eval函数执行动态标表达式过程详解

    这篇文章主要介绍了Python使用eval函数执行动态标表达式过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-10-10
  • 对PyQt5中的菜单栏和工具栏实例详解

    对PyQt5中的菜单栏和工具栏实例详解

    今天小编就为大家分享一篇对PyQt5中的菜单栏和工具栏实例详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • 基于Python实现牛牛套圈小游戏的示例代码

    基于Python实现牛牛套圈小游戏的示例代码

    “幸运牛牛套圈圈”套住欢乐,圈住幸福,等你来挑战!这篇文章小编主要为大家介绍一款基于Python实现牛牛套圈小游戏,感兴趣的小伙伴可以了解一下
    2023-02-02
  • python中的转义字符串问题

    python中的转义字符串问题

    这篇文章主要介绍了python中的转义字符串问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-07-07
  • 关于Tensorflow和Keras版本对照及环境安装

    关于Tensorflow和Keras版本对照及环境安装

    这篇文章主要介绍了关于Tensorflow和Keras版本对照及环境安装方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-08-08
  • python图片格式转换脚本

    python图片格式转换脚本

    大家好,本篇文章主要讲的是python图片格式转换脚本,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下,方便下次浏览
    2022-01-01
  • python spotlight库简化交互式方法探索数据分析

    python spotlight库简化交互式方法探索数据分析

    这篇文章主要为大家介绍了python spotlight库简化的交互式方法探索数据,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2024-01-01
  • 浅谈python装饰器探究与参数的领取

    浅谈python装饰器探究与参数的领取

    下面小编就为大家分享一篇浅谈python装饰器探究与参数的领取,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2017-12-12
  • numpy.reshape(-1,1)的具体使用

    numpy.reshape(-1,1)的具体使用

    本文主要介绍了numpy.reshape(-1,1)的具体使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-07-07

最新评论