SparkSQL使用IDEA快速入门DataFrame与DataSet的完美教程

更新时间：2021年08月10日 12:03:24 作者：大数据老哥

本文给大家介绍使用idea开发Spark SQL 的详细过程，本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友参考下吧

1.使用IDEA开发Spark SQL

1.1创建DataFrame/DataSet

1、指定列名添加Schema

2、通过StrucType指定Schema

3、编写样例类，利用反射机制推断Schema

1.1.1指定列名添加Schema

//导包
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession
//代码
// 1.创建SparkSession
    val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()
// 2.使用spark 获取sparkContext 上下文对象
    val sc = spark.sparkContext
// 3.使用SparkContext 读取文件并按照空格切分 返回RDD
    val rowRDD: RDD[(Int, String, Int)] = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>(x(0).toInt,x(1),x(2).toInt))
// 4.导入隐式类
    import spark.implicits._
//5.将RDD 转换为DataFrame 指定元数据信息
    val dataFrame = rowRDD.toDF("id","name","age")
//6.数据展示
    dataFrame.show()

1.1.2StructType指定Schema

//导包
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}
//编写代码
//1.实例SparkSession
    val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()
//2.根据SparkSession获取SparkContext 上下文对象
    val sc = spark.sparkContext
// 3.使用SparkContext读取文件并按照空开切分并返回元组
    val rowRDD = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>Row(x(0).toInt,x(1),x(2).toInt))
// 4.导入隐式类
    import spark.implicits._
//5.使用StructType 添加元数据信息
    val schema = StructType(List(
      StructField("id", IntegerType, true),
      StructField("name", StringType, true),
      StructField("age", IntegerType, true)
    ))
//6.将数据与元数据进行拼接 返回一个DataFrame
    val dataDF = spark.createDataFrame(rowRDD,schema)
//7.数据展示
    dataDF.show()

1.1.3反射推断Schema

//导包
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession
//定义单例对象
  case class Person(Id:Int,name:String,age:Int)
//编写代码
//1.实例sparkSession
    val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()
//2.通过sparkSession获取sparkContext 上下文对象
    val sc = spark.sparkContext
//3.通过sparkContext 读取文件并按照空格切分 将每一个数据保存到person中
    val rowRDD: RDD[Person] = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>Person(x(0).toInt,x(1),x(2).toInt))
// 4.导入隐式类
    import spark.implicits._
//5.将rowRDD转换为dataFrame
    val dataFrame = rowRDD.toDF()
    //6.数据展示
    dataFrame.show()

到此这篇关于SparkSQL使用IDEA快速入门DataFrame与DataSet的文章就介绍到这了,更多相关SparkSQL快速入门内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Linux系统卸载重装JDK的完整流程
Linux系统有时候会默认使用OpenJDK版本,需要卸载后重新安装自己需要的JDK版本,下面这篇文章主要给大家介绍了关于Linux系统卸载重装JDK的完整流程,需要的朋友可以参考下
2024-02-02
springboot+EHcache 实现文章浏览量的缓存和超时更新
这篇文章主要介绍了springboot+EHcache 实现文章浏览量的缓存和超时更新,问题描述和解决思路给大家介绍的非常详细，需要的朋友可以参考下
2017-04-04
详解Java分布式IP限流和防止恶意IP攻击方案
这篇文章主要介绍了详解Java分布式IP限流和防止恶意IP攻击方案，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-03-03
java使用bitmap实现可回收自增id的示例
本文主要介绍了java使用bitmap实现可回收自增id的示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
2024-10-10
Java JDK动态代理（AOP）用法及实现原理详解
在本篇文章了小编给大家整理的是一篇关于Java JDK动态代理（AOP）用法及实现原理详解内容，有需要的朋友们可以参考学习下。
2020-10-10
java常见的序列化方式
这篇文章主要为大家详细介绍了java中两种常见的序列化方式，感兴趣的小伙伴们可以参考一下
2016-08-08
浅谈java运用注解实现对类中的方法检测的工具
这篇文章主要介绍了浅谈java运用注解实现对类中的方法检测的工具，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-08-08
详解Java中的hashcode
这篇文章主要介绍了详解Java中的hashcode,文中有非常详细的代码示例,对正在学习java的小伙伴们有非常好的帮助,需要的朋友可以参考下
2021-05-05
Spring Security实现多次登录失败后账户锁定功能
当用户多次登录失败的时候，我们应该将账户锁定，等待一定的时间之后才能再次进行登录操作。今天小编给大家分享Spring Security实现多次登录失败后账户锁定功能，感兴趣的朋友一起看看吧
2019-11-11
MyBatis中#{}和${}的区别详解
mybatis和ibatis总体来讲都差不多的。下面小编给大家探讨下mybatis中#{}和${}的区别，感兴趣的朋友一起学习吧
2016-08-08