大数据之Spark基础环境

更新时间：2023年04月06日 11:41:37 作者：敲键盘的杰克

本篇文章开始介绍Spark基础知识，包括Spark诞生的背景，应用环境以及入门案例等，感兴趣的同学可以参考阅读本文

前言

本篇文章开始介绍Spark基础知识，包括Spark诞生的背景，应用环境以及入门案例等，还是Spark学习之旅前，得先安装Spark环境才行，具体安装步骤可以看Spark环境搭建，让我们接着往下聊。

一、Spark概述

（一）Spark是什么

Spark是Apache顶级的开源项目，主要用于处理大规模数据的分析引擎，该引擎的核心数据结构是RDD弹性分布式数据集，这是一种分布式内存抽象，程序员可以使用RDD在大规模集群中做内存运算，并具有一定的容错方式；

Spark保留了MapReduce的分布式并行计算的优点，还改进了其较为明显的缺陷，中间数据存储在内存中，大大提高了运行速度，同时还提供了丰富的API，提高了开发速度。

（二）Spark的四大特点

Spark底层使用Scala语言，是一种面向对象、函数式编程语言，能够像操作本地集合一样轻松的操作分布式数据集，Spark具有运行速度快、易用性好、通用性强和随处运行等特点；

（1）速度快，Spark支持内存计算，并且通过DAG有向无环图执行引擎支持无环数据流，相对MapReduce来说，Spark处理数据时，可以将中间处理结果数据存储到内存中，Spark每个任务以线程方式执行，并不是像MapReduce以进程方式执行，线程的启动和销毁相对于进程来说比较快；
（2）易于使用，Spark 支持Java、Scala、Python 、R和SQL语言等多种语言；
（3）通用型强，Spark 还提供包括Spark SQL、Spark Streaming、MLib 及GraphX在内的多个工具库，可以在同一个应用中无缝地使用这些工具库；
（4）运行方式多，Spark 支持多种运行方式，包括在 Hadoop 和 Mesos 上，也支持 Standalone的独立运行模式，同时也可以运行在云Kubernetes上，获取数据的方式也很多，支持从HDFS、HBase、Cassandra 及 Kafka 等多种途径获取数据。

（三）Spark的风雨十年

Spark的发展主要经历过几大阶段：

（1）2009年Spark起源于加州伯克利分校；
（2）2013年被捐赠给Apache；
（3）2014年称为Apache顶级项目；
（4）2016年Spark2.0发布
（5）2019年Spark3.0发布

（四）Spark框架模块

整个Spark 框架模块包含：Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX和 Spark MLlib，大部分模块的能力都在建立在其核心引擎之上；

（1）Spark Core，该模块的数据结构是RDD，实现了Spark的基本功能，包括RDD、任务调度、内存管理、错误恢复以及与存储系统交互等；
（2）Spark SQL，该模块的数据结构主要是DataFrame，是Spark用来操作结构化数据的程序包，通过该模块，可以直接使用SQL操作数据；
（3）Spark Streaming，其主要的数据结构是DStream离散化流，是Spark对实时数据进行流式计算的组件；
（4）Spark GraphX，该模块的数据结构为RDD或者DataFrame，是Spark中用于图计算的组件，性能良好，拥有丰富的功能和运算符，能在海量数据上自如地运行复杂的图算法；
（5）Spark MLlib，该模块的数据结构也是RDD或者DataFrame，主要用于机器学习，提供了常见的机器学习功能的程序库，包括分类、回归、聚类等，同时也支持模型评估和数据导入等功能。

（五）Spark通信框架

整个Spark 框架通信模块为Netty，Spark 1.6版本引入了Netty，在Spark 2.0之后，完全使用Netty，并移除了akka。

总结

Spark保留了MapReduce的分布式计算，基于内存计算，提高的数据的计算能力；
其主要模块有Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX和 Spark MLlib，不仅可以通过SQL的方式操作数据，还可以对实时数据进行流式计算，同时也支持机器学习；
Spark的特点主要是计算速度快，支持多种编程语言，并且提供了众多友好的API，使得Spark的学习成本大大降低了。

以上就是大数据之Spark基础环境的详细内容，更多关于Spark基础环境的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

数据库的三级模式和两级映射介绍
在这里大家一定要注意三级模式中的概念模式对应的是数据库设计的逻辑模型，而不是概念模型(E-R模型)，一定不要弄混了
2012-10-10
ssdb简单介绍
SSDB是一套基于LevelDB存储引擎的非关系型数据库（NOSQL）,可用于取代Redis,更适合海量数据的存储,这篇文章主要介绍了ssdb简单介绍,需要的朋友可以参考下
2023-08-08
数据库sql查询性能优化详解
这篇文章主要介绍了数据库sql查询性能优化详解,查询优化的本质是让数据库优化器为SQL语句选择最佳的执行计划,对于大型的应用系统,大量的数据当然需要效率最快的执行语句,需要的朋友可以参考下
2023-07-07
Navicat premium for mac 12的安装破解图文教程
Navicat Premium是一款数据库管理工具，将此工具连接数据库,你可以从中看到各种数据库的详细信息，这篇文章主要介绍了Mac下Navicat premium for mac 12的安装破解过程,需要的朋友可以参考下
2024-01-01
DBeaver执行外部sql文件详细图文教程
DBeaver最近才使用,以前使用的PL/SQL,有些不是很熟悉,记录下来,下面这篇文章主要给大家介绍了关于DBeaver执行外部sql文件的相关资料,文中通过图文介绍的非常详细,需要的朋友可以参考下
2023-06-06
Hive HQL支持2种查询语句风格
这篇文章主要为大家介绍了Hive HQL支持2种查询语句风格示例语法，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-06-06
SQL中Having与Where的区别
何时使用having where，请遵照下面的说明：WHERE语句在GROUP BY语句之前；SQL会在分组之前计算WHERE语句。HAVING语句在GROUP BY语句之后；SQL会在分组之后计算HAVING语句。
2016-01-01
SQL 优化经验总结34条
我们要做到不但会写SQL,还要做到写出性能优良的SQL,以下为笔者学习、摘录、并汇总部分资料与大家分享！
2009-07-07
通过DBeaver连接Phoenix操作hbase的方法
DBeaver 可通过 JDBC 连接到数据库，可以支持几乎所有的数据库产品，本文介绍常用一种通用数据库工具Dbeaver，通过DBeaver连接Phoenix操作hbase的操作，需要的朋友跟随小编一起看看吧
2021-11-11
SQLite快速入门指南
这篇文章主要介绍了SQLite快速入门指南,作为开源的嵌入式数据库,SQLite可以在不需要过多投入数据库开发时提供十分轻便的服务,需要的朋友可以参考下
2015-07-07