JAVA spark创建DataFrame的方法

 更新时间:2020年08月31日 06:15:50   作者:凝望远处的天鹅  
这篇文章主要介绍了JAVA spark创建DataFrame的方法,帮助大家更好的理解和学习spark,感兴趣的朋友可以了解下

述说正传,接下来开始说正事。

以前用Python和Scala操作Spark的时候比较多,毕竟Python和Scala代码写起来要简洁很多。

今天一起来看看Java版本怎么创建DataFrame,代码写起来其实差不多,毕竟公用同一套API。测试数据可以参考我之前的文章。

先来总结下Spark的一般流程:

1,先创建Spark基础变量,spark,sc

2,加载数据,rdd.textFile,spark.read.csv/json等

3,数据处理,mapPartition, map,filter,reduce等一系列transformation操作

4,数据保存,saveAstextFile,或者其他DataFrame方法

祭出代码

package dev.java;

import dev.utils.Utils;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.types.StructType;
import scala.Tuple2;

import java.util.List;

public class Spark1 {

  private static final String fileData = "seed";
  private static final String fileSave = "result";
  private static SparkSession spark = SparkSession.builder()
        .appName("Java-Spark")
        .master("local[*]")
        .config("spark.default.parallelism", 100)
        .config("spark.sql.shuffle.partitions", 100)
        .config("spark.driver.maxResultSize", "3g")
        .getOrCreate();
  private static JavaSparkContext sc = JavaSparkContext.fromSparkContext(spark.sparkContext());

  public static void main(String[] args) {
    Utils.delete(fileSave);
    //
    t1();
  }

  private static void t1() {
    JavaRDD<Row> rdd = sc.textFile(fileData)
        .map(v -> {
          String[] parts = v.split("\t");
          return RowFactory.create(parts[0], Long.parseLong(parts[1]));
        })
        .filter(v -> v.getLong(1) >= 10000)
        .sortBy(v -> v.getLong(1), false, 100)
        .coalesce(2);
    Dataset<Row> df = spark.createDataFrame(rdd, StructType.fromDDL("title string, qty long"));
    df.write().csv(fileSave);
    spark.stop();
  }
}

以上就是JAVA操作spark创建DataFrame的方法的详细内容,更多关于JAVA Spark 创建DataFrame的资料请关注脚本之家其它相关文章!

相关文章

  • Spring框架AOP基础之代理模式详解

    Spring框架AOP基础之代理模式详解

    代理模式(Proxy Parttern)为一个对象提供一个替身,来控制这个对象的访问,即通过代理对象来访问目标对象。本文将通过示例详细讲解一下这个模式,需要的可以参考一下
    2022-11-11
  • 详解Java中Callable和Future的区别

    详解Java中Callable和Future的区别

    这篇文章主要介绍了Java中Callable和Future的区别,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2022-11-11
  • SpringBoot+ENC实现密钥加密的使用示例

    SpringBoot+ENC实现密钥加密的使用示例

    本文主要介绍了SpringBoot+ENC实现密钥加密的使用示例,主要是为了将配置信息从应用程序代码中分离出来,以提高安全性和可维护性,感兴趣的可以了解一下
    2024-07-07
  • 解决@RequestBody搭配@Data的大坑

    解决@RequestBody搭配@Data的大坑

    这篇文章主要介绍了解决@RequestBody搭配@Data的大坑,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-10-10
  • 树莓派.GPRS.短信接收器

    树莓派.GPRS.短信接收器

    这篇文章主要介绍了树莓派.GPRS.短信接收器的相关知识,需要的朋友可以参考下
    2017-10-10
  • JPA @Query时,无法使用limit函数的问题及解决

    JPA @Query时,无法使用limit函数的问题及解决

    这篇文章主要介绍了JPA @Query时,无法使用limit函数的问题及解决方案,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-03-03
  • 解决Weblogic部署war找不到spring配置文件的问题

    解决Weblogic部署war找不到spring配置文件的问题

    这篇文章主要介绍了解决Weblogic部署war找不到spring配置文件的问题,具有很好的参考价值,希望对大家有所帮助。
    2021-07-07
  • Java线程实现的三种方式详细解析

    Java线程实现的三种方式详细解析

    这篇文章主要介绍了Java线程实现的三种方式详细解析,Java多线程实现方式主要有三种,继承Thread类、实现Runnable接口、使用ExecutorService、Callable、Future实现有返回结果的多线程,需要的朋友可以参考下
    2023-12-12
  • SpringMVC框架使用jackson封装数据过程中遇到的问题及解决

    SpringMVC框架使用jackson封装数据过程中遇到的问题及解决

    这篇文章主要介绍了SpringMVC框架使用jackson封装数据过程中遇到的问题及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-07-07
  • java实现用户签到BitMap功能实现demo

    java实现用户签到BitMap功能实现demo

    这篇文章主要为大家介绍了java实现用户签到BitMap功能实现demo,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-11-11

最新评论