详解PHP多个进程配合redis的有序集合实现大文件去重

 更新时间:2019年03月06日 14:56:05   作者:陶士涵的菜地  
这篇文章主要介绍了PHP多个进程配合redis的有序集合实现大文件去重,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习 吧

1.对一个大文件比如我的文件为

-rw-r--r-- 1 ubuntu ubuntu 9.1G Mar 1 17:53 2018-12-awk-uniq.txt

2.使用split命令切割成10个小文件

split -b 1000m 2018-12-awk-uniq.txt -b 按照字节切割 , 支持单位m和k

3.使用10个php进程读取文件 , 插入redis的有序集合结构中 , 重复的是插不进去的 ,因此可以起到去重的作用

<?php
 
$file=$argv[1];
//守护进程
umask(0); //把文件掩码清0
if (pcntl_fork() != 0){ //是父进程,父进程退出
    exit();
}  
posix_setsid();//设置新会话组长,脱离终端
if (pcntl_fork() != 0){ //是第一子进程,结束第一子进程 
    exit();
}  
 
 
$start=memory_get_usage();
 
$redis=new Redis();
$redis->connect('127.0.0.1', 6379);
 
$handle = fopen("./{$file}", 'rb');
while (feof($handle)===false) {
    $line=fgets($handle);
    $email=str_replace("\n","",$line);
    $redis->zAdd('emails', 1, $email);
}

4. redis中查看获取的数据

zcard emails 获取元素个数

取一定范围的元素 , 比如从100000开始 到 100100结束

zrange emails 100000 100100 WITHSCORES

以上所述是小编给大家介绍的PHP多个进程配合redis的有序集合实现大文件去重详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对脚本之家网站的支持!

相关文章

  • PHP mail 通过Windows的SMTP发送邮件失败的解决方案

    PHP mail 通过Windows的SMTP发送邮件失败的解决方案

    今天调试WordPress的邮件发送功能,总是提示:SMTP server response: 501 5.5.4 Invalid Address。用telnet测试SMTP是没有任何问题的
    2009-05-05
  • php出现内存位置访问无效错误问题解决方法

    php出现内存位置访问无效错误问题解决方法

    这篇文章主要介绍了php出现内存位置访问无效错误问题解决方法,本文分析后得出的原因是sqlite扩展导致,需要的朋友可以参考下
    2014-08-08
  • PHP批斗大会之缺失的异常详解

    PHP批斗大会之缺失的异常详解

    这篇文章主要给大家介绍了关于PHP批斗大会之缺失的异常的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用PHP具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2019-07-07
  • php操作zip在不解压缩包的情况下显示压缩包中的图片

    php操作zip在不解压缩包的情况下显示压缩包中的图片

    本文简单介绍了PHP操作ZIP压缩包时需要在不解压的情况下如何直接显示其中的图片或文件,方法很简单主要利用了PHP中的Zip File 系列函数,base64_encode函数,希望对大家能有所启发
    2017-11-11
  • 浅谈Eclipse PDT调试PHP程序

    浅谈Eclipse PDT调试PHP程序

    本文主要介绍的是eclipse和pdt的安装、调试以及xdebug的配置方法,并用eclipse pdt进行断点调试PHP代码。
    2014-06-06
  • 解析Linux下Varnish缓存的配置优化

    解析Linux下Varnish缓存的配置优化

    本篇文章是对Linux下Varnish缓存的配置优化进行了详细的分析介绍,需要的朋友参考下
    2013-06-06
  • PHP面相对象中的重载与重写

    PHP面相对象中的重载与重写

    本文主要介绍了PHP面相对象中的重载与重写。具有很好的参考价值,下面跟着小编一起来看下吧
    2017-02-02
  • php跨域检测类允许部分域名访问的示例详解

    php跨域检测类允许部分域名访问的示例详解

    PHP跨域检测类是一种封装了跨域检测逻辑的PHP类,它可以用于在PHP应用程序中检测和处理跨域请求,以确保安全和正常的跨域通信,本文给出了示例给大家介绍php如何允许部分域名访问,需要的朋友可以参考下
    2023-12-12
  • php上传文件并存储到mysql数据库的方法

    php上传文件并存储到mysql数据库的方法

    这篇文章主要介绍了php上传文件并存储到mysql数据库的方法,以完整实例形式较为详细的分析了php操作文件上传与数据库存储的技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-03-03
  • php 随机排序广告的实现代码

    php 随机排序广告的实现代码

    博客流行在侧边栏放置 4 到 6 个 125x125 的广告, 但一般的摆放顺序存在问题. 如果广告位置被固定, 各个位置的天然关注度肯定是不一样的
    2011-05-05

最新评论