shuffle的关键阶段sort(Map端和Reduce端)源码分析

 更新时间:2019年01月10日 11:14:02   作者:qq_43193797  
今天小编就为大家分享一篇关于shuffle的关键阶段sort(Map端和Reduce端)源码分析,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧

源码中有这样一段代码

1. Map端排序获取的比较器

public RawComparator getOutputKeyComparator() {
  // 获取mapreduce.job.output.key.comparator.class,必须是RawComparator类型,如果没设置,是null
  Class<? extends RawComparator> theClass = getClass(
   JobContext.KEY_COMPARATOR, null, RawComparator.class);
  // 如果用户自定义了这个参数,那么实例化用户自定义的比较器
  if (theClass != null)
   return ReflectionUtils.newInstance(theClass, this);
  // 默认情况,用户是没用自定义这个参数
  // 判断Map输出的key,是否是WritableComparable的子类
 //  如果是,调用当前类的内部的Comparator!
  return WritableComparator.get(getMapOutputKeyClass().asSubclass(WritableComparable.class), this);
 }

总结: 如何对感兴趣的数据进行排序?

             ① 数据必须作为key

             ② 排序是框架自动排序,我们提供基于key的比较器,也就是Comparator,必须是RawComparator类型

                            a) 自定义类,实现RawComparator,重写compare()

                                          指定mapreduce.job.output.key.comparator.class为自定义的比较器类型

                            b)key实现WritableComparable(推荐)

              ③ 实质都是调用相关的comparaTo()方法,进行比较

2. Reduce端进行分组的比较器

RawComparator comparator = job.getOutputValueGroupingComparator();
// 获取mapreduce.job.output.group.comparator.class,必须是RawComparator类型
// 如果没用设置,直接获取MapTask排序使用的比较器
// 也是比较key
public RawComparator getOutputValueGroupingComparator() {
  Class<? extends RawComparator> theClass = getClass(
   JobContext.GROUP_COMPARATOR_CLASS, null, RawComparator.class);
  if (theClass == null) {
   return getOutputKeyComparator();
  }
  // 如果设置了,就使用设置的比较器
  return ReflectionUtils.newInstance(theClass, this);
 }

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对脚本之家的支持。如果你想了解更多相关内容请查看下面相关链接

相关文章

  • 深入学习Java 热部署的知识

    深入学习Java 热部署的知识

    对于Java应用程序来说,热部署就是在运行时更新Java类文件。在基于Java的应用服务器实现热部署的过程中,类装入器扮演着重要的角色。大多数基于Java的应用服务器,包括EJB服务器和Servlet容器,都支持热部署。,需要的朋友可以参考下
    2019-06-06
  • 深入讲解Java 9中的九个新特性

    深入讲解Java 9中的九个新特性

    Java 8 发布三年多之后,即将快到2017年7月下一个版本发布的日期了。 你可能已经听说过 Java 9 的模块系统,但是这个新版本还有许多其它的更新。 这里有九个令人兴奋的新功能将与 Java 9 一起发布。需要的朋友可以参考学习,下面来一起看看吧。
    2017-05-05
  • Quarkus中ConfigSourceInterceptor的加密配置实现

    Quarkus中ConfigSourceInterceptor的加密配置实现

    这篇文章主要为大家介绍Quarkus中ConfigSourceInterceptor加密配置的实现方式,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-02-02
  • SpringBoot集成drools的实现示例

    SpringBoot集成drools的实现示例

    本文主要介绍了SpringBoot集成drools的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-05-05
  • SpringBoot 改造成https访问的实现

    SpringBoot 改造成https访问的实现

    这篇文章主要介绍了SpringBoot 改造成https访问的实现,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-10-10
  • 教你如何用Jenkins自动化部署项目(从零到搭建完成)

    教你如何用Jenkins自动化部署项目(从零到搭建完成)

    这篇文章主要介绍了教你如何用Jenkins自动化部署项目(从零到搭建完成),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-10-10
  • Mybatis分页插件Pagehelper的PageInfo字段属性使用及解释

    Mybatis分页插件Pagehelper的PageInfo字段属性使用及解释

    这篇文章主要介绍了Mybatis分页插件Pagehelper的PageInfo字段属性使用及解释,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-05-05
  • Java JDBC连接Kerberos认证的HIVE和Impala方式

    Java JDBC连接Kerberos认证的HIVE和Impala方式

    本文主要介绍了HiveJDBC和ImpalaJDBC的使用方法,包括版本对应、Maven安装、主机名配置、端口开通、JDBC连接和Kerberos认证等
    2025-02-02
  • Java常用加密算法实例总结

    Java常用加密算法实例总结

    这篇文章主要介绍了Java常用加密算法,结合实例形式总结分析了base64、md5、sha、rsa、des等加密算法实现技巧,需要的朋友可以参考下
    2017-10-10
  • 一个简单的SpringBoot项目快速搭建详细步骤

    一个简单的SpringBoot项目快速搭建详细步骤

    Spring Boot是由Pivotal团队提供的全新框架,其设计目的是用来简化新Spring应用的初始搭建以及开发过程,下面这篇文章主要给大家介绍了一个简单的SpringBoot项目快速搭建详细步骤,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-08-08

最新评论