深入了解SparkSQL的运用及方法

 更新时间:2022年03月30日 11:42:31   作者:那人独钓寒江雪.  
SparkSQL就是将SQL转换成一个任务,提交到集群上运行,类似于Hive的执行方式。本文给大家分享了SparkSQl的运用及方法,感兴趣的朋友跟随小编一起看看吧

一:SparkSQL

1.SparkSQL简介

Spark SQL是Spark的一个模块,用于处理结构化的数据,它提供了一个数据抽象DataFrame(最核心的编程抽象就是DataFrame),并且SparkSQL作为分布式SQL查询引擎。
Spark SQL就是将SQL转换成一个任务,提交到集群上运行,类似于Hive的执行方式。

2.SparkSQL运行原理

将Spark SQL转化为RDD,然后提交到集群执行。

3.SparkSQL特点

(1)容易整合,Spark SQL已经集成在Spark中

(2)提供了统一的数据访问方式:JSON、CSV、JDBC、Parquet等都是使用统一的方式进行访问

(3)兼容 Hive

(4)标准的数据连接:JDBC、ODBC

二、SparkSQL运用

package sql

import org.apache.avro.ipc.specific.Person
import org.apache.spark
import org.apache.spark.rdd.RDD
import org.apache.spark.sql
import org.apache.spark.sql.catalyst.InternalRow
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}
import org.junit.Test

class Intro {
  @Test
  def dsIntro(): Unit ={
    val spark: SparkSession = new sql.SparkSession.Builder()
      .appName("ds intro")
      .master("local[6]")
      .getOrCreate()

    //导入隐算是shi转换
    import spark.implicits._

    val sourceRDD: RDD[Person] =spark.sparkContext.parallelize(Seq(Person("张三",10),Person("李四",15)))
    val personDS: Dataset[Person] =sourceRDD.toDS();
//personDS.printSchema()打印出错信息

    val resultDS: Dataset[Person] =personDS.where('age>10)
      .select('name,'age)
      .as[Person]
    resultDS.show()

  }
  @Test
  def dfIntro(): Unit ={
    val spark: SparkSession =new SparkSession.Builder()
      .appName("ds intro")
      .master("local")
      .getOrCreate()

    import spark.implicits._
    val sourceRDD: RDD[Person] = spark.sparkContext.parallelize(Seq(Person("张三",10),Person("李四",15)))
    val df: DataFrame = sourceRDD.toDF()//隐shi转换

    df.createOrReplaceTempView("person")//创建表
    val resultDF: DataFrame =spark.sql("select name from person where age>=10 and age<=20")
    resultDF.show()

  }
  @Test
  def database1(): Unit ={
    //1.创建sparkSession
    val spark: SparkSession =new SparkSession.Builder()
      .appName("database1")
      .master("local[6]")
      .getOrCreate()
      //2.导入引入shi子转换
    import spark.implicits._

    //3.演示
    val sourceRDD: RDD[Person] =spark.sparkContext.parallelize(Seq(Person("张三",10),Person("李四",15)))
    val dataset: Dataset[Person] =sourceRDD.toDS()

    //Dataset 支持强类型的API
    dataset.filter(item => item.age >10).show()
    //Dataset 支持若弱类型的API
    dataset.filter('age>10).show()
    //Dataset 可以直接编写SQL表达式
    dataset.filter("age>10").show()
  }

  @Test
  def database2(): Unit ={
    val spark: SparkSession = new SparkSession.Builder()
      .master("local[6]")
      .appName("database2")
      .getOrCreate()
    import spark.implicits._

    val dataset: Dataset[Person] =spark.createDataset(Seq(Person("张三",10),Person("李四",20)))
    //无论Dataset中放置的是什么类型的对象,最终执行计划中的RDD上都是internalRow
    //直接获取到已经分析和解析过得Dataset的执行计划,从中拿到RDD
    val executionRdd: RDD[InternalRow] =dataset.queryExecution.toRdd

    //通过将Dataset底层的RDD通过Decoder转成了和Dataset一样的类型RDD
    val typedRdd:RDD[Person] = dataset.rdd

    println(executionRdd.toDebugString)
    println()
    println()
    println(typedRdd.toDebugString)
  }

  @Test
  def database3(): Unit = {
    //1.创建sparkSession
    val spark: SparkSession = new SparkSession.Builder()
      .appName("database1")
      .master("local[6]")
      .getOrCreate()
    //2.导入引入shi子转换
    import spark.implicits._

    val dataFrame: DataFrame = Seq(Person("zhangsan", 15), Person("lisi", 20)).toDF()
    //3.看看DataFrame可以玩出什么花样
    //select name from...
    dataFrame.where('age > 10)
      .select('name)
      .show()
  }
//  @Test
//  def database4(): Unit = {
//    //1.创建sparkSession
//    val spark: SparkSession = new SparkSession.Builder()
//      .appName("database1")
//      .master("local[6]")
//      .getOrCreate()
//    //2.导入引入shi子转换
//    import spark.implicits._
//    val personList=Seq(Person("zhangsan",15),Person("lisi",20))
//
//    //1.toDF
//    val df1: DataFrame =personList.toDF()
//    val df2: DataFrame =spark.sparkContext.parallelize(personList).toDF()
//      //2.createDataFrame
//    val df3: DataFrame =spark.createDataFrame(personList)
//
//    //3.read
//    val df4: DataFrame =spark.read.csv("")
//    df4.show()
//  }
  //toDF()是转成DataFrame,toDs是转成Dataset
  //  DataFrame就是Dataset[Row] 代表弱类型的操作,Dataset代表强类型的操作,中的类型永远是row,DataFrame可以做到运行时类型安全,Dataset可以做到 编译时和运行时都安全
@Test
def database4(): Unit = {
  //1.创建sparkSession
  val spark: SparkSession = new SparkSession.Builder()
    .appName("database1")
    .master("local[6]")
    .getOrCreate()
  //2.导入引入shi子转换
  import spark.implicits._
  val personList=Seq(Person("zhangsan",15),Person("lisi",20))
  //DataFrame代表弱类型操作是编译时不安全
  val df: DataFrame =personList.toDF()

  //Dataset是强类型的
  val ds: Dataset[Person] =personList.toDS()
  ds.map((person:Person) =>Person(person.name,person.age))
}
  @Test
  def row(): Unit ={
    //1.Row如何创建,它是什么
    //row对象必须配合Schema对象才会有列名
    val p: Person =Person("zhangsan",15)
    val row: Row =Row("zhangsan",15)
    //2.如何从row中获取数据
    row.getString(0)
    row.getInt(1)
    //3.Row也是样例类、
    row match {
      case Row(name,age) => println(name,age)
    }
  }

}
case class Person(name: String, age: Int)

到此这篇关于深入了解SparkSQL的运用及方法的文章就介绍到这了,更多相关SparkSQL运用内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Spring MVC整合Shiro权限控制的方法

    Spring MVC整合Shiro权限控制的方法

    这篇文章主要介绍了Spring MVC整合Shiro权限控制,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-05-05
  • OPENCV+JAVA实现人脸识别

    OPENCV+JAVA实现人脸识别

    这篇文章主要为大家详细介绍了OPENCV+JAVA实现人脸识别,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-02-02
  • MybatisPlus实现数据权限隔离的示例详解

    MybatisPlus实现数据权限隔离的示例详解

    Mybatis Plus对Mybatis做了无侵入的增强,非常的好用,今天就给大家介绍它的其中一个实用功能:数据权限插件,感兴趣的可以跟随小编一起了解下
    2024-04-04
  • java SSLContext创建方式

    java SSLContext创建方式

    这篇文章主要介绍了java SSLContext创建方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-01-01
  • Java中对于双属性枚举的使用案例

    Java中对于双属性枚举的使用案例

    今天小编就为大家分享一篇关于Java中对于双属性枚举的使用案例,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2018-12-12
  • java  基础知识之IO总结

    java 基础知识之IO总结

    这篇文章主要介绍了java 基础知识之IO总结的相关资料,Java中的I/O分为两种类型,一种是顺序读取,一种是随机读取,需要的朋友可以参考下
    2017-03-03
  • java高效打印一个二维数组的实例(不用递归,不用两个for循环)

    java高效打印一个二维数组的实例(不用递归,不用两个for循环)

    下面小编就为大家带来一篇java高效打印一个二维数组的实例(不用递归,不用两个for循环)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-03-03
  • Java的lambda表达式实现解析

    Java的lambda表达式实现解析

    这篇文章主要为大家详细介绍了Java的lamda表达式实现,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-06-06
  • 聊聊Spring Boot 如何集成多个 Kafka

    聊聊Spring Boot 如何集成多个 Kafka

    这篇文章主要介绍了Spring Boot 集成多个 Kafka的相关资料,包括配置文件,生成者和消费者配置过程,本文通过实例代码给大家介绍的非常详细,需要的朋友参考下吧
    2023-10-10
  • Java数据结构之单链表详解

    Java数据结构之单链表详解

    在之前的学习中,我们主要了解了很多 Java 的 基本语法,但是在之后的 Java学习中,了解基础数据结构的知识非常重要,数据结构的思想可以帮助我们更加清晰明白的了解 Java 的解题思路等等.今天我们就来开始学习实现一个Java基础的单链表,需要的朋友可以参考下
    2021-05-05

最新评论