java-spark中各种常用算子的写法示例

 更新时间:2018年06月20日 08:42:31   作者:horseman  
这篇文章主要给大家介绍了关于java-spark中各种常用算子的写法的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

Spark的算子的分类

从大方向来说,Spark 算子大致可以分为以下两类:

1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。

Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。

2)Action 行动算子:这类算子会触发 SparkContext 提交 Job 作业。

Action 算子会触发 Spark 提交作业(Job),并将数据输出 Spark系统。

从小方向来说,Spark 算子大致可以分为以下三类:

1)Value数据类型的Transformation算子,这种变换并不触发提交作业,针对处理的数据项是Value型的数据。

2)Key-Value数据类型的Transfromation算子,这种变换并不触发提交作业,针对处理的数据项是Key-Value型的数据对。

3)Action算子,这类算子会触发SparkContext提交Job作业。

引言

通常写spark的程序用scala比较方便,毕竟spark的源码就是用scala写的。然而,目前java开发者特别多,尤其进行数据对接、上线服务的时候,这时候,就需要掌握一些spark在java中的使用方法了

一、map

map在进行数据处理、转换的时候,不能更常用了

在使用map之前 首先要定义一个转换的函数 格式如下:

Function<String, LabeledPoint> transForm = new Function<String, LabeledPoint>() {//String是某一行的输入类型 LabeledPoint是转换后的输出类型
 @Override
 public LabeledPoint call(String row) throws Exception {//重写call方法
 String[] rowArr = row.split(",");
 int rowSize = rowArr.length;
 
 double[] doubleArr = new double[rowSize-1];
 
 //除了第一位的lable外 其余的部分解析成double 然后放到数组中
 for (int i = 1; i < rowSize; i++) {
  String each = rowArr[i];
  doubleArr[i] = Double.parseDouble(each);
 }
 
 //用刚才得到的数据 转成向量
 Vector feature = Vectors.dense(doubleArr);
 double label = Double.parseDouble(rowArr[0]);
 //构造用于分类训练的数据格式 LabelPoint
 LabeledPoint point = new LabeledPoint(label, feature);
 return point;
 }
 };

需要特别注意的是:

1、call方法的输入应该是转换之前的数据行的类型  返回值应是处理之后的数据行类型

2、如果转换方法中调用了自定义的类,注意该类名必须实现序列化 比如

public class TreeEnsemble implements Serializable {
}

3、转换函数中如果调用了某些类的对象,比如该方法需要调用外部的一个参数,或者数值处理模型(标准化,归一化等),则该对象需要声明是final

然后就是在合适的时候调用该转换函数了

JavaRDD<LabeledPoint> rdd = oriData.toJavaRDD().map(transForm);

这种方式是需要将普通的rdd转成javaRDD才能使用的,转成javaRDD的这一步操作不耗时,不用担心

二、filter

在避免数据出现空值、0等场景中也非常常用,可以满足sql中where的功能

这里首先也是要定义一个函数,该函数给定数据行 返回布尔值 实际效果是将返回为true的数据保留

Function<String, Boolean> boolFilter = new Function<String, Boolean>() {//String是某一行的输入类型 Boolean是对应的输出类型 用于判断数据是否保留
 @Override
 public Boolean call(String row) throws Exception {//重写call方法
 boolean flag = row!=null;
 return flag;
 }
 };

通常该函数实际使用中需要修改的仅仅是row的类型 也就是数据行的输入类型,和上面的转换函数不同,此call方法的返回值应是固定为Boolean

然后是调用方式

JavaRDD<LabeledPoint> rdd = oriData.toJavaRDD().filter(boolFilter);

三、mapToPair

该方法和map方法有一些类似,也是对数据进行一些转换。不过此函数输入一行 输出的是一个元组,最常用的方法是用来做交叉验证 或者统计错误率 召回率 计算AUC等等

同样,需要先定义一个转换函数

Function<String, Boolean> transformer = new PairFunction<LabeledPoint, Object, Object>() {//LabeledPoint是输入类型 后面的两个Object不要改动
 @Override
 public Tuple2 call(LabeledPoint row) throws Exception {//重写call方法 通常只改动输入参数 输出不要改动
 double predicton = thismodel.predict(row.features());
 double label = row.label();
 return new Tuple2(predicton, label);
 }
 });

关于调用的类、类的对象,要求和之前的一致,类需要实现序列化,类的对象需要声明成final类型

相应的调用如下:

JavaPairRDD<Object, Object> predictionsAndLabels = oriData.mapToPair(transformer);

然后对该predictionsAndLabels的使用,计算准确率、召回率、精准率、AUC,接下来的博客中会有,敬请期待

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对脚本之家的支持。

相关文章

  • XML Web 服务 Eclipse实现sun-jaxws.xml文件的方法

    XML Web 服务 Eclipse实现sun-jaxws.xml文件的方法

    在sun-jaxws.xml文件,可以配置endpoint、handler-chain等内容,在这个文件中配置的内容会覆盖在Java代码中使用注解属性配置的的内容,本文给大家介绍的非常详细,感兴趣的朋友一起看看吧
    2023-11-11
  • Spring AOP基本概念

    Spring AOP基本概念

    这篇文章主要为大家详细介绍了spring基础概念AOP与动态代理,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能给你带来帮助
    2021-07-07
  • Java正则表达式(匹配、切割、替换、获取)等方法

    Java正则表达式(匹配、切割、替换、获取)等方法

    这篇文章主要介绍了Java正则表达式(匹配、切割、替换、获取)等方法的相关资料,需要的朋友可以参考下
    2017-06-06
  • Java面向对象之什么是异常

    Java面向对象之什么是异常

    Java 把异常当作对象来处理,并定义一个基类,java.lang.Throwable 作为所有异常的超类。今天通过本文给大家分享Java面向对象之什么是异常,感兴趣的朋友一起看看吧
    2021-07-07
  • 老生常谈Java String字符串(必看篇)

    老生常谈Java String字符串(必看篇)

    下面小编就为大家带来一篇老生常谈Java String字符串(必看篇)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-08-08
  • Android 资源 id详解及的动态获取

    Android 资源 id详解及的动态获取

    这篇文章主要介绍了Android 资源 id详解及的动态获取的相关资料,需要的朋友可以参考下
    2016-12-12
  • Java之Springcloud Feign组件详解

    Java之Springcloud Feign组件详解

    这篇文章主要介绍了Java之Springcloud Feign组件详解,本篇文章通过简要的案例,讲解了该项技术的了解与使用,以下就是详细内容,需要的朋友可以参考下
    2021-08-08
  • Java快速排序QuickSort(实例)

    Java快速排序QuickSort(实例)

    下面小编就为大家带来一篇Java快速排序QuickSort(实例)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-10-10
  • SpringBoot Mail邮件任务详情

    SpringBoot Mail邮件任务详情

    这篇文章主要介绍了SpringBoot Mail邮件任务详情,文章通过spring-boot-starter-mail包展开详细内容,需要的小伙伴可以参考一下
    2022-05-05
  • 解析Spring中面向切面编程

    解析Spring中面向切面编程

    如果说 IoC 是 Spring 的核心,那么面向切面编程就是 Spring 最为重要的功能之一了,在数据库事务中切面编程被广泛使用
    2021-06-06

最新评论