Python实现目录自动清洗

更新时间：2023年11月20日 10:41:12 作者：东离与糖宝

这篇文章主要为大家详细介绍了Python实现目录自动清洗的相关知识,文中的示例代码讲解详细,具有一定的借鉴价值,感兴趣的小伙伴可以跟随小编一起学习一下

一、需求分析

1. 这是一个标准的章节目录，我们需要保留目录的前两级标题，也就是包含章和节字的标题

2. 需要在二级标题所在行最前面空4个格子，一级标题不用

3. 需要在章和节字的后面加上一个空格

4. 需要在页码前面加上=>符号

5. 示例效果如下：

二、操作步骤详解（标准章节）

1. 提取文章目录

1. 图片识别文字提取文章目录

http://183.62.34.62:8004/docs

2. 使用方法

3. 识别示例

2. 更改保存目录.txt

你可以使用Python中的open函数来打开文件，read方法读取文件内容，然后对内容进行修改，最后使用write方法将修改后的内容写回文件。以下是一个简单的例子：

import os
# 获取桌面路径
desktop_path = os.path.join(os.path.expanduser("~"), "Desktop")

# 目标文件路径
file_path = os.path.join(desktop_path, "目录.txt")

# 打开文件并读取内容
with open(file_path, 'r', encoding='utf-8') as file:
    content = file.read()

# 修改内容（这里只是一个简单的例子）
modified_content = content.replace('章', '章666')

# 将修改后的内容写回文件
with open(file_path, 'w', encoding='utf-8') as file:
    file.write(modified_content)

请确保你有足够的权限读取和写入文件。此外，这只是一个简单的例子，如果需要进行更复杂的操作，可以使用正则表达式或其他处理方式来实现。

3. 二级标题前面加4个空格

    # 去除空格
    line = line.replace(" ", "")
    if '节' in line:
        # 二级标题添加4个空格
        line = ' ' * 4 + line

lstrip(' ') 是 Python 字符串方法，用于删除字符串开头（左侧）的指定字符。在这里，' ' 表示空格字符。

4. 在章字和节字后面添加一个空格

    # 使用正则表达式在'章'或'节'后面添加一个空格
    line = re.sub(r'(章|节)(?![ ])', r'\1 ', line)

5. 在页码前面加上=>符号

    # 匹配并去除最外层的英文括号
    pattern_en = r'\(([\d\s]+)\)'
    line = re.sub(pattern_en, r'\1', line)
    # 匹配并去除最外层的中文括号及其内部内容（包括空格）
    pattern = r'（([^）]+)）'
    line = re.sub(pattern, r'\1', line)
    line = line.replace(" ", "")
    # 确保每行只有一个 =>
    if '=>' not in line:
        # 在每行数字前加上 =>
        line = re.sub(r'(\d+)', r'=>\1', line)

6. 代码完全体

# 获取桌面路径
import os
import re
desktop_path = os.path.join(os.path.expanduser("~"), "Desktop")
# 目标文件路径
file_path = os.path.join(desktop_path, "目录.txt")
# 打开文件并读取内容
with open(file_path, 'r', encoding='utf-8') as file:
    lines = file.readlines()
modified_lines = []
for line in lines:
    # 去除空格
    line = line.replace(" ", "")
    # 匹配并去除最外层的英文括号
    pattern_en = r'\(([\d\s]+)\)'
    line = re.sub(pattern_en, r'\1', line)
    # 匹配并去除最外层的中文括号及其内部内容（包括除数字和空格以外的字符）
    pattern = r'（([^）]+)）'
    line = re.sub(pattern, r'\1', line)
    # 确保每行只有一个 =>
    if '=>' not in line:
        # 在每行数字前加上 =>
        line = re.sub(r'(\d+)', r'=>\1', line)
    # 使用正则表达式在'章'或'节'后面添加一个空格
    line = re.sub(r'(章|节)(?![ ])', r'\1 ', line)
    if '节' in line:
        # 二级标题添加4个空格
        line = ' ' * 4 + line
    modified_lines.append(line)
# 将修改后的内容写回文件
with open(file_path, 'w', encoding='utf-8') as file:
    file.writelines(modified_lines)
# 读取文件内容
with open(file_path, 'r', encoding='utf-8') as file:
    content = file.read()
    print(content)

三、进阶一（有章无节+小数二级标题）

1. 二级标题前面加4个空格

如果章字不在行内，则初步认定他为二级标题

     # 去除空格
    line = line.replace(" ", "")
     if '章' not in line:
        # 二级标题添加4个空格
        line = ' ' * 4 + line

2. 在标题里面添加一个空格

    # 使用正则表达式在'章'或'节'后面添加一个空格，仅在后面没有空格的情况下
    line = re.sub(r'(章|节)(?![ ])', r'\1 ', line)
    # 在小数点后添加空格
    line = re.sub(r'(\.\d)', r'\1 ', line)

3. 在页码前面加上=>符号

    # 匹配并去除最外层的英文括号
    pattern_en = r'\(([\d\s]+)\)'
    line = re.sub(pattern_en, r'\1', line)
    # 匹配并去除最外层的中文括号及其内部内容（包括除数字和空格以外的字符）
    pattern = r'（([^）]+)）'
    line = re.sub(pattern, r'\1', line)
    # 确保每行只有一个 =>
    if '=>' not in line:
        # 在页码数字前添加 =>（只在行尾）
        line = re.sub(r'(\d+)$', r'=>\1', line)

4. 去除=>符号和汉字之间的冗余符号

    # 去除中文汉字和'=>整体符号左边的冗余符号
    pattern = r'([\u4e00-\u9fff]+)[^\w\s]+=>'
    line = re.sub(pattern, r'\1=>', line)

5. 删除空行

    # 去除空格
    line = line.replace(" ", "")
    if len(line) == 1:
        continue

6. 代码完全体

# 获取桌面路径
import os
import re
desktop_path = os.path.join(os.path.expanduser("~"), "Desktop")
# 目标文件路径
file_path = os.path.join(desktop_path, "目录.txt")
# 打开文件并读取内容
with open(file_path, 'r', encoding='utf-8') as file:
    lines = file.readlines()
modified_lines = []
for line in lines:
    # 去除空格
    line = line.replace(" ", "")
    # 使用正则表达式在'章'或'节'后面添加一个空格，仅在后面没有空格的情况下
    line = re.sub(r'(章|节)(?![ ])', r'\1 ', line)
    # 在小数点后添加空格
    line = re.sub(r'(\.\d)', r'\1 ', line)
    if '章' not in line:
        # 二级标题添加4个空格
        line = ' ' * 4 + line
    # 匹配并去除最外层的英文括号
    pattern_en = r'\(([\d\s]+)\)'
    line = re.sub(pattern_en, r'\1', line)
    # 匹配并去除最外层的中文括号及其内部内容（包括除数字和空格以外的字符）
    pattern = r'（([^）]+)）'
    line = re.sub(pattern, r'\1', line)
    # 确保每行只有一个 =>
    if '=>' not in line:
        # 在页码数字前添加 =>（只在行尾）
        line = re.sub(r'(\d+)$', r'=>\1', line)
    modified_lines.append(line)
# 将修改后的内容写回文件
with open(file_path, 'w', encoding='utf-8') as file:
    file.writelines(modified_lines)
# 读取文件内容
with open(file_path, 'r', encoding='utf-8') as file:
    content = file.read()
    print(content)

7. 进阶说明

1. 兼容标准章节版本

2. 章和章之间识别为第二级目录

3. 只在标题末尾页码数字添加=>符号

4. 去除箭头和汉字之间识别出来的冗余符号

5. 去除空行

拓展与补充

content = file.read() 与 lines = file.readlines() 读取文件的区别

在 Python 中，file.read() 和 file.readlines() 两者可以在同一个文件句柄中使用，但是要注意的是，file.read() 会读取整个文件内容为一个字符串，而 file.readlines() 会读取整个文件内容并将每一行作为一个字符串放入列表中

如果你使用了 file.read()，那么之后再使用 file.readlines() 将不会得到任何内容，因为文件指针已经在文件的末尾。如果需要再次读取文件，你可以使用 file.seek(0) 将文件指针重新定位到文件的开头

以下是一个演示的例子：

# 使用 file.read()
with open('example.txt', 'r', encoding='utf-8') as file:
    content = file.read()
    print(content)
# 使用 file.readlines()，注意在上面使用了 file.read() 之后，需要重新打开文件或者使用 file.seek(0)
with open('example.txt', 'r', encoding='utf-8') as file:
    file.seek(0)
    lines = file.readlines()
    print(lines)

总的来说，两者是可以在同一个文件句柄中使用的，只是需要注意文件指针的位置。

以上就是Python实现目录自动清洗的详细内容，更多关于Python目录清洗的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

pygame游戏之旅添加碰撞效果的方法
这篇文章主要为大家详细介绍了pygame游戏之旅的第7篇，教大家如何添加碰撞的效果，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-11-11
利用python爬取m3u8格式视频的具体实现
之前爬取的视频都是mp4格式的,直接用requests请求就可以直接爬取,最近公司安排了一个小任务,需要爬取m3u8这种格式的视频,下面这篇文章主要给大家介绍了关于利用python爬取m3u8格式视频的相关资料,需要的朋友可以参考下
2022-08-08
ndarray数组的转置(transpose)和轴对换方式
这篇文章主要介绍了ndarray数组的转置(transpose)和轴对换方式，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-02-02
Python 十大经典排序算法实现详解
排序算法是《数据结构与算法》中最基本的算法之一。排序算法可以分为内部排序和外部排序，内部排序是数据记录在内存中进行排序，而外部排序是因排序的数据很大，一次不能容纳全部的排序记录，在排序过程中需要访问外存
2022-01-01
pytorch实现梯度下降和反向传播图文详细讲解
这篇文章主要介绍了pytorch实现梯度下降和反向传播，反向传播的目的是计算成本函数C对网络中任意w或b的偏导数。一旦我们有了这些偏导数，我们将通过一些常数α的乘积和该数量相对于成本函数的偏导数来更新网络中的权重和偏差
2023-04-04
Python拉取视频流的性能优化指南
本文介绍了在Python中拉取网络视频流时遇到的性能问题,并提供了一套优化方案,主要包括生产者消费者模式、解耦生产与消费、选择正确的后端与解码参数、跳帧处理、更高效的内存结构、多进程绕过GIL等,此外,还提到了高级优化技巧,需要的朋友可以参考下
2026-04-04
Python 合并多个TXT文件并统计词频的实现
这篇文章主要介绍了Python 合并多个TXT文件并统计词频的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-08-08
pandas的连接函数concat()函数的具体使用方法
这篇文章主要介绍了pandas的连接函数concat()函数的具体使用方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-07-07
使用python进行PostgreSQL数据库连接全过程
这篇文章主要介绍了使用python进行PostgreSQL数据库连接的相关资料,包括安装psycopg2模块、使用PyCharm进行图形化连接、代码连接数据库的方法、以及如何执行DML和DQL操作,需要的朋友可以参考下
2025-03-03
Django实现简单分页功能的方法详解
这篇文章主要介绍了Django实现简单分页功能的方法,结合实例形式分析了django的第三方模块django-pure-pagination的安装、使用及实现分页的相关操作技巧,需要的朋友可以参考下
2017-12-12