好得很程序员自学网

<tfoot draggable='sEl'></tfoot>

shuffle的关键阶段sort(Map端和Reduce端)源码分析

源码中有这样一段代码

1. map端排序获取的比较器

?

1

2

3

4

5

6

7

8

9

10

11

12

public rawcomparator getoutputkeycomparator() {

   // 获取mapreduce.job.output.key测试数据parator.class,必须是rawcomparator类型,如果没设置,是null

   class <? extends rawcomparator> theclass = getclass(

    jobcontext.key_comparator, null , rawcomparator. class );

   // 如果用户自定义了这个参数,那么实例化用户自定义的比较器

   if (theclass != null )

    return reflectionutils.newinstance(theclass, this );

   // 默认情况,用户是没用自定义这个参数

   // 判断map输出的key,是否是writablecomparable的子类

  //  如果是,调用当前类的内部的comparator!

   return writablecomparator.get(getmapoutputkeyclass().assubclass(writablecomparable. class ), this );

  }

总结: 如何对感兴趣的数据进行排序?

             ① 数据必须作为key

             ② 排序是框架自动排序,我们提供基于key的比较器,也就是comparator,必须是rawcomparator类型

                            a) 自定义类,实现rawcomparator,重写compare()

                                          指定mapreduce.job.output.key测试数据parator.class为自定义的比较器类型

                            b)key实现writablecomparable(推荐)

              ③ 实质都是调用相关的comparato()方法,进行比较

2. reduce端进行分组的比较器

?

1

2

3

4

5

6

7

8

9

10

11

12

13

rawcomparator comparator = job.getoutputvaluegroupingcomparator();

// 获取mapreduce.job.output.group测试数据parator.class,必须是rawcomparator类型

// 如果没用设置,直接获取maptask排序使用的比较器

// 也是比较key

public rawcomparator getoutputvaluegroupingcomparator() {

   class <? extends rawcomparator> theclass = getclass(

    jobcontext.group_comparator_class, null , rawcomparator. class );

   if (theclass == null ) {

    return getoutputkeycomparator();

   }

   // 如果设置了,就使用设置的比较器

   return reflectionutils.newinstance(theclass, this );

  }

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对的支持。如果你想了解更多相关内容请查看下面相关链接

原文链接:https://blog.csdn.net/qq_43193797/article/details/86019761

查看更多关于shuffle的关键阶段sort(Map端和Reduce端)源码分析的详细内容...

  阅读:13次