python利用joblib进行并行数据处理的代码示例

 更新时间:2023年10月08日 10:19:56   作者:m0_46483236  
在数据量比较大的情况下,数据预处理有时候会非常耗费时间,可以利用 joblib 中的 Parallel 和 delayed 进行多CPU并行处理,文中给出了详细的代码示例,需要的朋友可以参考下

在数据量比较大的情况下,数据预处理有时候会非常耗费时间。

可以利用 joblib 中的 Parallel 和 delayed 进行多CPU并行处理

示例如下:

import random
import os
from glob import glob
from tqdm import tqdm
from joblib import Parallel, delayed
import soundfile as sf
import pycantonese as pct
from opencc import OpenCC
cc = OpenCC('s2hk')
######### ljspeech ##########
def process_ljspeech_one_utterance(wav_path, text, mode, save_root):
    try:
        tmp = wav_path.split('/')
        spk = 'LJSpeech-1.1'
        wname = tmp[-1]
        tname = wname.replace('.wav','.txt')
        text_to_path = f'{save_root}/{mode}/{spk}/{tname}'
        os.makedirs(os.path.dirname(text_to_path), exist_ok=True)
        fp = open(text_to_path, 'w')
        fp.write(text)
        fp.close()
        wav_to_path = f'{save_root}/{mode}/{spk}/{wname}'
        _, fs = sf.read(wav_path)
        if fs != 16000:
            cmd = f'sox {wav_path} -r 16000 {wav_to_path}'
        else:
            cmd = f'cp {wav_path} {wav_to_path}'
        os.system(cmd)
        assert False
    except BaseException:
        return
wavs_root = 'source_data/LJSpeech/LJSpeech-1.1'
data = []
with open(f'{wavs_root}/metadata.csv', 'r') as f:
    lines = f.readlines()
    for line in lines:
        uttid = line.strip().split('|')[0]
        wav_path = f'{wavs_root}/wavs/{uttid}.wav'
        text = line.strip().split('|')[2]
        data.append([wav_path, text])
    f.close()
valid_data = random.sample(data, 100)
train_data = [dt for dt in data if dt not in valid_data]
Parallel(n_jobs=20)(delayed(process_ljspeech_one_utterance)(wav_path, text, mode='train', save_root='wavs/LJSpeech') for wav_path,text in tqdm(train_data))
Parallel(20)(delayed(process_ljspeech_one_utterance)(wav_path, text, mode='valid', save_root='wavs/LJSpeech') for wav_path,text in tqdm(valid_data))
# Parallel(n_jobs=20): 指定20个CPU(默认是分配给不同的CPU)
all_wavs = glob('wavs/LJSpeech/*/*/*.wav')
print(f'obtain {len(all_wavs)} wavs...')

到此这篇关于python利用joblib进行并行数据处理的代码示例的文章就介绍到这了,更多相关python joblib并行数据处理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python随机数函数代码实例解析

    Python随机数函数代码实例解析

    这篇文章主要介绍了Python随机数函数代码实例解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-02-02
  • 教你如何利用Python批量翻译英文Word文档并保留格式

    教你如何利用Python批量翻译英文Word文档并保留格式

    本文将给大家分享一个实用的Python办公自动化脚本 利用Python批量翻译英文Word文档并保留格式,最终效果甚至比部分收费的软件还要好!文中有非常详细的代码示例.需要的朋友可以参考下
    2021-05-05
  • python创建一个最简单http webserver服务器的方法

    python创建一个最简单http webserver服务器的方法

    这篇文章主要介绍了python创建一个最简单http webserver服务器的方法,实例分析了Python操作http创建服务器端的相关技巧,需要的朋友可以参考下
    2015-05-05
  • Ubuntu配置Python环境的超详细教程

    Ubuntu配置Python环境的超详细教程

    这篇文章主要给大家介绍了关于Ubuntu配置Python环境的超详细教程,文中通过代码示例将配置的过程介绍的非常详细,对大家学习或者使用Python具有一定的参考学习价值,需要的朋友可以参考下
    2023-08-08
  • Python closure闭包解释及其注意点详解

    Python closure闭包解释及其注意点详解

    这篇文章主要介绍了Python closure闭包解释及其注意点详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-08-08
  • 合并Excel工作薄中成绩表的VBA代码,非常适合教育一线的朋友

    合并Excel工作薄中成绩表的VBA代码,非常适合教育一线的朋友

    每次学生考试,评分完毕之后,把每个科的成绩收集起来,就得到了一个有若干工作表,每个表有学生学号、分数等列的Excel工作薄。
    2009-04-04
  • 使用python PIL库实现简单验证码的去噪方法步骤

    使用python PIL库实现简单验证码的去噪方法步骤

    这篇文章主要介绍了使用python PIL库实现简单验证码的去噪方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-05-05
  • Python中执行分位数回归的示例详解

    Python中执行分位数回归的示例详解

    分位数回归是线性回归的扩展版本,分位数回归构建一组变量(也称为自变量)和分位数(也称为因变量)之间的关系,下面我们就来看看Python如何执行分位数回归吧
    2024-03-03
  • Python命令行click参数用法解析

    Python命令行click参数用法解析

    这篇文章主要介绍了Python命令行click参数用法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-12-12
  • 基于Python实现五子棋游戏

    基于Python实现五子棋游戏

    这篇文章主要为大家详细介绍了基于Python实现五子棋游戏,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-04-04

最新评论