shuffle的关键阶段sort(Map端和Reduce端)源码分析

更新时间：2019年01月10日 11:14:02 作者：qq_43193797

今天小编就为大家分享一篇关于shuffle的关键阶段sort(Map端和Reduce端)源码分析，小编觉得内容挺不错的，现在分享给大家，具有很好的参考价值，需要的朋友一起跟随小编来看看吧

源码中有这样一段代码

1. Map端排序获取的比较器

public RawComparator getOutputKeyComparator() {
  // 获取mapreduce.job.output.key.comparator.class，必须是RawComparator类型，如果没设置，是null
  Class<? extends RawComparator> theClass = getClass(
   JobContext.KEY_COMPARATOR, null, RawComparator.class);
  // 如果用户自定义了这个参数，那么实例化用户自定义的比较器
  if (theClass != null)
   return ReflectionUtils.newInstance(theClass, this);
  // 默认情况，用户是没用自定义这个参数
  // 判断Map输出的key，是否是WritableComparable的子类
 //  如果是，调用当前类的内部的Comparator!
  return WritableComparator.get(getMapOutputKeyClass().asSubclass(WritableComparable.class), this);
 }

总结：如何对感兴趣的数据进行排序？

① 数据必须作为key

② 排序是框架自动排序，我们提供基于key的比较器，也就是Comparator，必须是RawComparator类型

a) 自定义类，实现RawComparator，重写compare()

指定mapreduce.job.output.key.comparator.class为自定义的比较器类型

b）key实现WritableComparable(推荐)

③ 实质都是调用相关的comparaTo()方法，进行比较

2. Reduce端进行分组的比较器

RawComparator comparator = job.getOutputValueGroupingComparator();
// 获取mapreduce.job.output.group.comparator.class，必须是RawComparator类型
// 如果没用设置，直接获取MapTask排序使用的比较器
// 也是比较key
public RawComparator getOutputValueGroupingComparator() {
  Class<? extends RawComparator> theClass = getClass(
   JobContext.GROUP_COMPARATOR_CLASS, null, RawComparator.class);
  if (theClass == null) {
   return getOutputKeyComparator();
  }
  // 如果设置了，就使用设置的比较器
  return ReflectionUtils.newInstance(theClass, this);
 }

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对脚本之家的支持。如果你想了解更多相关内容请查看下面相关链接

您可能感兴趣的文章:

深入学习Java 热部署的知识
对于Java应用程序来说，热部署就是在运行时更新Java类文件。在基于Java的应用服务器实现热部署的过程中，类装入器扮演着重要的角色。大多数基于Java的应用服务器，包括EJB服务器和Servlet容器，都支持热部署。,需要的朋友可以参考下
2019-06-06
深入讲解Java 9中的九个新特性
Java 8 发布三年多之后，即将快到2017年7月下一个版本发布的日期了。你可能已经听说过 Java 9 的模块系统，但是这个新版本还有许多其它的更新。这里有九个令人兴奋的新功能将与 Java 9 一起发布。需要的朋友可以参考学习，下面来一起看看吧。
2017-05-05
Quarkus中ConfigSourceInterceptor的加密配置实现
这篇文章主要为大家介绍Quarkus中ConfigSourceInterceptor加密配置的实现方式，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-02-02
SpringBoot集成drools的实现示例
本文主要介绍了SpringBoot集成drools的实现示例，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2022-05-05
SpringBoot 改造成https访问的实现
这篇文章主要介绍了SpringBoot 改造成https访问的实现，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-10-10
教你如何用Jenkins自动化部署项目(从零到搭建完成)
这篇文章主要介绍了教你如何用Jenkins自动化部署项目(从零到搭建完成)，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-10-10
Mybatis分页插件Pagehelper的PageInfo字段属性使用及解释
这篇文章主要介绍了Mybatis分页插件Pagehelper的PageInfo字段属性使用及解释,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-05-05
Java JDBC连接Kerberos认证的HIVE和Impala方式
本文主要介绍了HiveJDBC和ImpalaJDBC的使用方法,包括版本对应、Maven安装、主机名配置、端口开通、JDBC连接和Kerberos认证等
2025-02-02
Java常用加密算法实例总结
这篇文章主要介绍了Java常用加密算法,结合实例形式总结分析了base64、md5、sha、rsa、des等加密算法实现技巧,需要的朋友可以参考下
2017-10-10
一个简单的SpringBoot项目快速搭建详细步骤
Spring Boot是由Pivotal团队提供的全新框架,其设计目的是用来简化新Spring应用的初始搭建以及开发过程,下面这篇文章主要给大家介绍了一个简单的SpringBoot项目快速搭建详细步骤,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2022-08-08

shuffle的关键阶段sort(Map端和Reduce端)源码分析

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具