Mapreduce分布式并行编程

 更新时间:2022年08月05日 10:26:21   作者:王以太  
这篇文章主要为大家介绍了Mapreduce分布式并行编程使用详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

1.什么是并行计算

传统并行计算:共享同一个数据,通过锁来控制数据的读写,难度大,容易导致死锁,拓展性差。但是是实时的,细颗粒度计算,计算密集型

Mapreduce:对机器的要求低,拓展性难,便宜,拓展性强,批处理场景,非实时,数据密集型(傻大)

map:分配工作任务给不同的人,并让其完成工作(工作相互独立,不互相为上下环节)

reduce:把不同的结果集合并 再加上分布式

2.现在mapreduce能做什么?

map:映射

1.如小写字母变成大写字母 map

2.把年龄小于16岁的都去掉 map

3.把美元变成人民币 y=x∗6.3y=x * 6.3y=x∗6.3 map

4.地址库的一个翻译:省市县 map

5.(只要是一些处理数据相关的,都应当是在map上)

reduce:做比较,工作整合,上下游

1.统计年薪最高的人 (一个组)key

2.按照男女计算平均年龄 (俩个组)key

3.排序 reduce

有些操作放在map、reduce里面都可以

a-------->a----->A

map--------- reduce ×

前提:尽量要减少数据的流动,reduce阶段数据越少越好,能在map做就在map做掉

数据SQL:

Select name ,age,gender from people where id =3

1.project(投射)map完成

Select name ,age,gender

2.filter(过滤)map完成

id=3

3.key(汇集)

如:Select avg(age),gender from peoplemap:age,gender ---project
key:gender(F,M) //分为man和female

reduce:按照key进行汇集 F(25,38,23),M(45,23)

reduce:avg

如:Select max(age),gender from people这里和上面差不多,但是就没有key了放在同一个地方

oss和hive的区别?

在文件系统上

实验部分:

1. 搭建各类环境

为了模拟真实情况,我这里搭建了分布式的hadoop集群,分别有三台机器。一台做master,一台做slave。

2. 搭建、配置zookeeper

3. 启动zookeeper

/usr/zookeeper/zookeeper-3.4.10/bin/zkServer.sh start

4. 安装配置java

5. 主从节点格式化

6. 启动集群

/usr/hadoop/hadoop-2.7.3/sbin/start-all.sh

7. 安装Scala

8. 启动spark集群

/usr/spark/spark-2.4.0-bin-hadoop2.7/sbin/start-all.sh

9. jps查看已经启动的

以上就是Mapreduce分布式并行编程的详细内容,更多关于Mapreduce分布式的资料请关注脚本之家其它相关文章!

相关文章

  • JSON,AJAX,Maven入门基础

    JSON,AJAX,Maven入门基础

    这篇文章主要介绍了JSON,AJAX和Maven基础,如何使用AJAX读取Json数组里面的数据,感兴趣的小伙伴们可以参考一下,希望能够帮助到你
    2021-07-07
  • POI通用导出Excel(.xls,.xlsx)的方法

    POI通用导出Excel(.xls,.xlsx)的方法

    这篇文章主要介绍了POI通用导出Excel(.xls,.xlsx)的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-05-05
  • Java并发之synchronized实现原理深入理解

    Java并发之synchronized实现原理深入理解

    这篇文章主要介绍了Java中synchronized实现原理详解,涉及synchronized实现同步的基础,Java对象头,Monitor,Mark Word,锁优化,自旋锁等相关内容,具有一定借鉴价值,需要的朋友可以参考下
    2021-08-08
  • Java中的CountDownLatch同步工具类使用解析

    Java中的CountDownLatch同步工具类使用解析

    这篇文章主要介绍了Java中的CountDownLatch使用解析,CountDownLatch初始化的时候必须指定一个count,await方法会一直阻塞直到调用countdown方法,count为0,当count为0时,所有的等待线程都会被释放,需要的朋友可以参考下
    2023-12-12
  • 浅谈MyBatis-plus入门使用

    浅谈MyBatis-plus入门使用

    这几天本人了解到了MyBatis-plus,一个 Mybatis 增强工具包.经过一番研究,发现这玩意真的好用,不用写任何 xml ,内置通用的 Mapper,而且完全是面向对象编程,文档给的示例代码,跟之前用过的 sequelize (Node.js 的 ORM)非常像,因此本人也尝试了一把, 需要的朋友可以参考下
    2021-05-05
  • Java SSM实现前后端协议联调详解下篇

    Java SSM实现前后端协议联调详解下篇

    首先我们已经知道,在现在流行的“前后端完全分离”架构中,前后端联调是一个不可能避免的问题,这篇文章主要介绍了Java SSM实现前后端协议联调过程
    2022-08-08
  • spring使用RedisTemplate操作Redis数据库

    spring使用RedisTemplate操作Redis数据库

    这篇文章主要介绍了spring使用RedisTemplate操作Redis数据库,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-03-03
  • springboot + mybatis-plus实现多表联合查询功能(注解方式)

    springboot + mybatis-plus实现多表联合查询功能(注解方式)

    这篇文章主要介绍了springboot + mybatis-plus实现多表联合查询功能,是最简单的一种注解方式,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-09-09
  • 浅谈Spring的属性编辑器的使用

    浅谈Spring的属性编辑器的使用

    这篇文章主要介绍了浅谈Spring的属性编辑器的使用,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-05-05
  • java.net.UnknownHostException异常的一般原因及解决步骤

    java.net.UnknownHostException异常的一般原因及解决步骤

    关于java.net.UnknownHostException大家也许都比较熟悉,这篇文章主要给大家介绍了关于java.net.UnknownHostException异常的一般原因及解决步骤,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2024-02-02

最新评论