hadoop 全面解读自定义分区
需求
将统计结果按照手机号,以136、137、138、139开头的数据分别放到一个独立的文件中,其他开头的放到一个文件中。(分区)
输入数据
1863157985066 120.196.100.82 2481 24681 200 1363157995033 120.197.40.4 264 0 200 1373157993055 120.196.100.99 132 1512 200 1393154400022 120.197.40.4 240 0 200 1363157993044 120.196.100.99 1527 2106 200 1397157993055 120.197.40.4 4116 1432 200 1463157993055 120.196.100.99 1116 954 200 1383157995033 120.197.40.4 3156 2936 200 1363157983019 120.196.100.82 240 0 200 1383154400022 120.197.40.4 6960 690 200 1363157973098 120.197.40.4 3659 3538 200 1373157993055 120.196.100.99 1938 180 200 1363154400022 120.196.100.99 918 4938 200 1393157993055 120.197.40.4 180 180 200 1363157984040 120.197.40.4 1938 2910 200
具体实现:
第一步:自定义Mapper:
public class PhoneMapper extends Mapper {
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
String line = value.toString(); //拿到一行数据
String[] fields = line.split(“\s+”); //切分成各个字段
String phoneNumber = fields[0]; //拿到手机号的字段
//封装数据为key-value进行输出
context.write(new Text(phoneNumber), value);
}
}
第二步:自定义Partitioner
public class PhonePartitioner extends Partitioner {
@Override
public int getPartition(Text key, Text value, int numPartitions) {
String preNum = key.toString().substring(0, 3); // 1 获取电话号码的前三位
int partition = 4;
switch (preNum) {
case “136”:
partition = 0;
break;
case “137”:
partition = 1;
break;
case “138”:
partition = 2;
break;
case “139”:
partition = 3;
break;
default:
break;
}
return partition;
}
}
第三步:自定义Reducer
public class PhoneReducer extends Reducer {
int index = 0;
@Override
protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {
index++;
context.write(new LongWritable(index), values.iterator().next());
}
}
第四步:自定义Driver
public class PhoneDriver {
public static void main(String[] args) throws Exception {
args = new String[2];
args[0] = “src/main/resources/phonei”;
args[1] = “src/main/resources/phoneo”;
// 1 获取配置信息,或者job对象实例
Configuration cfg = new Configuration();
//设置本地模式运行(即使项目类路径下core-site.xml文件,依然采用本地模式)
cfg.set("mapreduce.framework.name", "local");
cfg.set("fs.defaultFS", "file:///");
Job job = Job.getInstance(cfg);
// 2 指定本程序的jar包所在的本地路径
job.setJarByClass(PhoneDriver.class);
// 3 指定本业务job要使用的mapper/Reducer业务类
job.setMapperClass(PhoneMapper.class);
job.setReducerClass(PhoneReducer.class);
// 4 指定mapper输出数据的kv类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(Text.class);
// 5 指定最终输出的数据的kv类型
job.setOutputKeyClass(LongWritable.class);
job.setOutputValueClass(Text.class);
// 8 指定自定义数据分区
job.setPartitionerClass(PhonePartitioner.class);
// 9 同时指定相应数量的reduce task(必须指定)
job.setNumReduceTasks(5); //----①
// 6 指定job的输入原始文件所在目录
FileInputFormat.setInputPaths(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
// 7 将job中配置的相关参数,以及job所用的java类所在的jar包, 提交给yarn去运行
boolean result = job.waitForCompletion(true);
System.exit(result ? 0 : 1);
}
}到此这篇关于hadoop 全面解读自定义分区的文章就介绍到这了,更多相关hadoop 自定义分区内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
相关文章
SpringCloud-Gateway转发WebSocket失败问题及解决
这篇文章主要介绍了SpringCloud-Gateway转发WebSocket失败问题及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教2023-09-09
启用springboot security后登录web页面需要用户名和密码的解决方法
这篇文章主要介绍了启用springboot security后登录web页面需要用户名和密码的解决方法,也就是使用默认用户和密码登录的操作方法,本文结合实例代码给大家介绍的非常详细,需要的朋友可以参考下2023-02-02
jdk-logging log4j logback日志系统实现机制原理介绍
这篇文章主要介绍了jdk-logging、log4j、logback日志介绍以及三个日志系统的实现机制,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪2022-03-03
JAVA解决在@autowired,@Resource注入为null的情况
这篇文章主要介绍了JAVA解决在@autowired,@Resource注入为null的情况,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧2020-10-10
Spring Boot JPA中使用@Entity和@Table的实现
这篇文章主要介绍了Spring Boot JPA中使用@Entity和@Table的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧2020-03-03
Mybatis的mapper标签 namespace属性用法说明
这篇文章主要介绍了Mybatis的mapper标签 namespace属性用法说明,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教2021-09-09


最新评论