python利用joblib进行并行数据处理的代码示例

 更新时间:2023年10月08日 10:19:56   作者:m0_46483236  
在数据量比较大的情况下,数据预处理有时候会非常耗费时间,可以利用 joblib 中的 Parallel 和 delayed 进行多CPU并行处理,文中给出了详细的代码示例,需要的朋友可以参考下

在数据量比较大的情况下,数据预处理有时候会非常耗费时间。

可以利用 joblib 中的 Parallel 和 delayed 进行多CPU并行处理

示例如下:

import random
import os
from glob import glob
from tqdm import tqdm
from joblib import Parallel, delayed
import soundfile as sf
import pycantonese as pct
from opencc import OpenCC
cc = OpenCC('s2hk')
######### ljspeech ##########
def process_ljspeech_one_utterance(wav_path, text, mode, save_root):
    try:
        tmp = wav_path.split('/')
        spk = 'LJSpeech-1.1'
        wname = tmp[-1]
        tname = wname.replace('.wav','.txt')
        text_to_path = f'{save_root}/{mode}/{spk}/{tname}'
        os.makedirs(os.path.dirname(text_to_path), exist_ok=True)
        fp = open(text_to_path, 'w')
        fp.write(text)
        fp.close()
        wav_to_path = f'{save_root}/{mode}/{spk}/{wname}'
        _, fs = sf.read(wav_path)
        if fs != 16000:
            cmd = f'sox {wav_path} -r 16000 {wav_to_path}'
        else:
            cmd = f'cp {wav_path} {wav_to_path}'
        os.system(cmd)
        assert False
    except BaseException:
        return
wavs_root = 'source_data/LJSpeech/LJSpeech-1.1'
data = []
with open(f'{wavs_root}/metadata.csv', 'r') as f:
    lines = f.readlines()
    for line in lines:
        uttid = line.strip().split('|')[0]
        wav_path = f'{wavs_root}/wavs/{uttid}.wav'
        text = line.strip().split('|')[2]
        data.append([wav_path, text])
    f.close()
valid_data = random.sample(data, 100)
train_data = [dt for dt in data if dt not in valid_data]
Parallel(n_jobs=20)(delayed(process_ljspeech_one_utterance)(wav_path, text, mode='train', save_root='wavs/LJSpeech') for wav_path,text in tqdm(train_data))
Parallel(20)(delayed(process_ljspeech_one_utterance)(wav_path, text, mode='valid', save_root='wavs/LJSpeech') for wav_path,text in tqdm(valid_data))
# Parallel(n_jobs=20): 指定20个CPU(默认是分配给不同的CPU)
all_wavs = glob('wavs/LJSpeech/*/*/*.wav')
print(f'obtain {len(all_wavs)} wavs...')

到此这篇关于python利用joblib进行并行数据处理的代码示例的文章就介绍到这了,更多相关python joblib并行数据处理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python实现基于朴素贝叶斯的垃圾分类算法

    python实现基于朴素贝叶斯的垃圾分类算法

    这篇文章主要为大家详细介绍了python实现基于朴素贝叶斯的垃圾分类算法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-07-07
  • python matlab库简单用法讲解

    python matlab库简单用法讲解

    在本篇文章里小编给大家整理了一篇关于python matlab库简单用法讲解内容,有需要的朋友们可以学习下。
    2020-12-12
  • Python实现AES加密,解密的两种方法

    Python实现AES加密,解密的两种方法

    这篇文章主要介绍了Python实现AES加密,解密的两种方法,帮助大家更好的使用python加解密文件,感兴趣的朋友可以了解下
    2020-10-10
  • 解决Python中的ModuleNotFoundError: No module named 'paddle'错误

    解决Python中的ModuleNotFoundError: No module named 'pad

    你是否在尝试导入`paddle`模块时遇到了"ModuleNotFoundError: No module named 'paddle'"这个错误?别担心,我们的指南会告诉你如何解决,这就像找到丢失的钥匙一样简单,让我们一起来看看如何解决这个问题吧!
    2024-03-03
  • Python获取网页数据详解流程

    Python获取网页数据详解流程

    读万卷书不如行万里路,只学书上的理论是远远不够的,只有在实战中才能获得能力的提升,本篇文章手把手带你用Python来获取网页的数据,主要应用了Requests库,大家可以在过程中查缺补漏,提升水平
    2021-10-10
  • 浅谈python量化 双均线策略(金叉死叉)

    浅谈python量化 双均线策略(金叉死叉)

    这篇文章主要介绍了浅谈python量化 双均线策略(金叉死叉),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-06-06
  • OneFlow源码解析之Eager模式下Tensor存储管理

    OneFlow源码解析之Eager模式下Tensor存储管理

    这篇文章主要为大家介绍了OneFlow源码解析之Eager模式下Tensor的存储管理实现示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-04-04
  • Qt5.14 与 OpenCV4.5 教程之图片增强效果

    Qt5.14 与 OpenCV4.5 教程之图片增强效果

    这篇文章主要介绍了Qt5.14 与 OpenCV4.5 教程之图片增强效果的实现,本文通过图文并茂的形式给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧
    2021-11-11
  • python环境中的概念conda中与环境相关指令操作

    python环境中的概念conda中与环境相关指令操作

    这篇文章主要介绍了python环境中的概念conda中与环境相关指令操作,虚拟环境是从电脑独立开辟出来的环境,文章介绍了相关概念,需要的朋友可以参考下
    2023-03-03
  • python使用requests+excel进行接口自动化测试的实现

    python使用requests+excel进行接口自动化测试的实现

    在当今的互联网时代中,接口自动化测试越来越成为软件测试的重要组成部分,本文就来介绍了python使用requests+excel进行接口自动化测试的实现,感兴趣的可以了解一下
    2023-11-11

最新评论