如何利用多核CPU来加速你的Linux命令(GNU Parallel)

 更新时间:2019年01月15日 16:48:26   作者:佚名  
这篇文章主要介绍了如何利用多核CPU来加速你的Linux命令(GNU Parallel),小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧

你是否曾经有过要计算一个非常大的数据(几百GB)的需求?或在里面搜索,或其它操作——一些无法并行的操作。数据专家们,我是在对你们说。你可能有一个4核或更多核的CPU,但我们合适的工具,例如 grep, bzip2, wc, awk, sed 等等,都是单线程的,只能使用一个CPU内核。

借用卡通人物Cartman的话,“如何我能使用这些内核”?

要想让Linux命令使用所有的CPU内核,我们需要用到GNU Parallel命令,它让我们所有的CPU内核在单机内做神奇的map-reduce操作,当然,这还要借助很少用到的–pipes 参数(也叫做–spreadstdin)。这样,你的负载就会平均分配到各CPU上,真的。

BZIP2

bzip2是比gzip更好的压缩工具,但它很慢!别折腾了,我们有办法解决这问题。

以前的做法:

cat bigfile.bin | bzip2 --best > compressedfile.bz2 

现在这样:

cat bigfile.bin | parallel --pipe --recend '' -k bzip2 --best > compressedfile.bz2 

尤其是针对bzip2,GNU parallel在多核CPU上是超级的快。你一不留神,它就执行完成了。

GREP

如果你有一个非常大的文本文件,以前你可能会这样:

grep pattern bigfile.txt 

现在你可以这样:

cat bigfile.txt | parallel --pipe grep 'pattern' 

或者这样:

cat bigfile.txt | parallel --block 10M --pipe grep 'pattern' 

这第二种用法使用了 –block 10M参数,这是说每个内核处理1千万行——你可以用这个参数来调整每个CUP内核处理多少行数据。

AWK

下面是一个用awk命令计算一个非常大的数据文件的例子。

常规用法:

cat rands20M.txt | awk '{s+=$1} END {print s}' 

现在这样:

cat rands20M.txt | parallel --pipe awk \'{s+=\$1} END {print s}\' | awk '{s+=$1} END {print s}' 

这个有点复杂:parallel命令中的–pipe参数将cat输出分成多个块分派给awk调用,形成了很多子计算操作。这些子计算经过第二个管道进入了同一个awk命令,从而输出最终结果。第一个awk有三个反斜杠,这是GNU parallel调用awk的需要。

WC

想要最快的速度计算一个文件的行数吗?

传统做法:

wc -l bigfile.txt 

现在你应该这样:

cat bigfile.txt | parallel --pipe wc -l | awk '{s+=$1} END {print s}' 

非常的巧妙,先使用parallel命令‘mapping'出大量的wc -l调用,形成子计算,最后通过管道发送给awk进行汇总。

SED

想在一个巨大的文件里使用sed命令做大量的替换操作吗?

常规做法:

sed s^old^new^g bigfile.txt 

现在你可以:

cat bigfile.txt | parallel --pipe sed s^old^new^g 

…然后你可以使用管道把输出存储到指定的文件里。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

您可能感兴趣的文章:

相关文章

  • Ubuntu环境源码编译安装xdebug的方法

    Ubuntu环境源码编译安装xdebug的方法

    这篇文章主要介绍了Ubuntu环境源码编译安装xdebug的方法,较为详细的分析了Ubuntu环境xdebug编译安装的具体步骤、命令与相关操作注意事项,需要的朋友可以参考下
    2019-08-08
  • 如何搭建自己CDN服务器(LuManager)

    如何搭建自己CDN服务器(LuManager)

    这篇文章主要介绍了如何搭建自己CDN服务器(LuManager),需要的朋友可以参考下
    2016-04-04
  • Ubuntu 20.04最佳配置指南(新手必备)

    Ubuntu 20.04最佳配置指南(新手必备)

    这篇文章主要介绍了Ubuntu 20.04最佳配置指南,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-06-06
  • Linux域名服务DNS配置方法

    Linux域名服务DNS配置方法

    DNS 全称是 Domain Name System,大意是域名解析系统,它的职责是把域名翻译成一个一个可以识别的 IP 供不同的计算机设备连接。这篇文章主要介绍了Linux域名服务DNS配置方法,需要的朋友可以参考下
    2019-08-08
  • apache的rewrite规则使用说明

    apache的rewrite规则使用说明

    这篇文章主要介绍了apache的rewrite规则使用说明,并带有参考示例,需要的朋友可以参考下
    2014-04-04
  • Linux下使用inode删除指定文件方法示例

    Linux下使用inode删除指定文件方法示例

    文件的inode定义了文件的大小、所有人等文件的特征。每个文件和目录都有自己唯一的inode数字。所以下面这篇文章主要给大家介绍了关于Linux下使用inode删除指定文件的相关资料,需要的朋友可以参考借鉴,下面来一起看看吧。
    2017-10-10
  • 怎么禁用 Ubuntu 服务器中终端欢迎消息中的广告

    怎么禁用 Ubuntu 服务器中终端欢迎消息中的广告

    这篇文章主要介绍了怎么禁用 Ubuntu 服务器中终端欢迎消息中的广告,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2018-11-11
  • Linux kde中11个你不知道的应用程序

    Linux kde中11个你不知道的应用程序

    今天小编就为大家分享一篇关于Linux kde中11个你不知道的应用程序,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2018-10-10
  • CentOS7下Docker的安装教程

    CentOS7下Docker的安装教程

    本篇文章主要介绍了CentOS7下Docker的安装教程,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-02-02
  • Ubuntu19.10开启ssh服务(详细过程)

    Ubuntu19.10开启ssh服务(详细过程)

    这篇文章主要介绍了Ubuntu19.10开启ssh服务,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-05-05

最新评论