linux环境不使用hadoop安装单机版spark的方法

更新时间：2019年04月03日 11:02:48 作者：stpeace

今天小编就为大家分享一篇关于linux环境不使用hadoop安装单机版spark的方法，小编觉得内容挺不错的，现在分享给大家，具有很好的参考价值，需要的朋友一起跟随小编来看看吧

大数据持续升温，不熟悉几个大数据组件，连装逼的口头禅都没有。最起码，你要会说个hadoop, hdfs, mapreduce, yarn, kafka, spark, zookeeper, neo4j吧，这些都是装逼的必备技能。

关于spark的详细介绍, 网上一大堆，搜搜便是，下面，我们来说单机版的spark的安装和简要使用。

0. 安装jdk, 由于我的机器上之前已经有了jdk, 所以这一步我可以省掉。 jdk已经是很俗气的老生常谈了, 不多说, 用java/scala的时候可少不了。

ubuntu@VM-0-15-ubuntu:~$ java -version
openjdk version "1.8.0_151"
OpenJDK Runtime Environment (build 1.8.0_151-8u151-b12-0ubuntu0.16.04.2-b12)
OpenJDK 64-Bit Server VM (build 25.151-b12, mixed mode)
ubuntu@VM-0-15-ubuntu:~$

1. 你并不一定需要安装hadoop, 只需要选择特定的spark版本即可。你并不需要下载scala, 因为spark会默认带上scala shell. 去spark官网下载，在没有hadoop的环境下，可以选择：spark-2.2.1-bin-hadoop2.7，然后解压，如下：

ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc$ ll
total 196436
drwxrwxr-x 3 ubuntu ubuntu   4096 Feb 2 19:57 ./
drwxrwxr-x 9 ubuntu ubuntu   4096 Feb 2 19:54 ../
drwxrwxr-x 13 ubuntu ubuntu   4096 Feb 2 19:58 spark-2.2.1-bin-hadoop2.7/
-rw-r--r-- 1 ubuntu ubuntu 200934340 Feb 2 19:53 spark-2.2.1-bin-hadoop2.7.tgz

2. spark中有python和scala版本的, 下面，我来用scala版本的shell, 如下：

ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$ bin/spark-shell 
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
18/02/02 20:12:16 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
18/02/02 20:12:16 WARN Utils: Your hostname, localhost resolves to a loopback address: 127.0.0.1; using 172.17.0.15 instead (on interface eth0)
18/02/02 20:12:16 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Spark context Web UI available at http://172.17.0.15:4040
Spark context available as 'sc' (master = local[*], app id = local-1517573538209).
Spark session available as 'spark'.
Welcome to
   ____       __
   / __/__ ___ _____/ /__
  _\ \/ _ \/ _ `/ __/ '_/
  /___/ .__/\_,_/_/ /_/\_\  version 2.2.1
   /_/
Using Scala version 2.11.8 (OpenJDK 64-Bit Server VM, Java 1.8.0_151)
Type in expressions to have them evaluated.
Type :help for more information.
scala>

来进行简单操作：

scala> val lines = sc.textFile("README.md")
lines: org.apache.spark.rdd.RDD[String] = README.md MapPartitionsRDD[1] at textFile at <console>:24
scala> lines.count()
res0: Long = 103
scala> lines.first()
res1: String = # Apache Spark
scala> :quit
ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$ 
ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$ 
ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$  
ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$ wc -l README.md 
103 README.md
ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$ head -n 1 README.md 
# Apache Spark
ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$

来看看可视化的web页面，在Windows上输入： http://ip:4040

OK, 本文仅仅是简单的安装，后面我们会继续深入介绍spark.

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对脚本之家的支持。如果你想了解更多相关内容请查看下面相关链接

您可能感兴趣的文章:

Linux basename命令的使用方法
这篇文章主要介绍了Linux basename命令的使用方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-02-02
Ubuntu下如何设置ssh免密码登录安装
这篇文章主要介绍了Ubuntu下ssh免密码登录安装,需要的朋友可以参考下
2014-06-06
linux系统虚拟主机开启支持Swoole Loader扩展的方法
这篇文章主要介绍了linux系统虚拟主机开启支持Swoole Loader扩展的方法,需要的朋友可以参考下
2020-12-12
centos 7系统下安装Jenkins的步骤详解
Jenkins是一个开源软件项目，是基于Java开发的一种持续集成工具，下面这篇文章主要给大家介绍了关于在centos 7系统下安装Jenkins的步骤，文中通过示例代码介绍的非常详细，需要的朋友可以参考借鉴，下面来一起看看吧。
2017-08-08
linux如何通过crontab命令定时执行shell脚本
为保障网安测试活动的顺利进行,需要设置Linux服务器上服务的定时启停,本文介绍了通过crontab实现服务定时启停的方法,包括检查crontab安装、编写启停脚本、创建定时任务、日志记录,以及问题解决方案,通过crontab-e命令编辑定时任务
2024-10-10
ubuntu如何开启ssh远程登录
在Ubuntu上开启SSH远程登录的步骤如下：检查SSH安装情况、启动SSH服务、设置开机启动、检查SSH状态、配置防火墙、并使用SSH客户端进行远程登录
2025-03-03
linux crm部署代码详解
在本篇文章里小编给大家分享了关于linux crm部署流程代码，需要的朋友们可以学习下。
2020-01-01
centos下yum搭建安装linux+apache+mysql+php环境的方法
这篇文章主要介绍了centos下yum搭建安装linux+apache+mysql+php环境的方法,本文分步骤给大家介绍的非常详细，具有参考借鉴价值，需要的朋友可以参考下
2016-10-10
linux grub的启动加密及删除恢复方法
这篇文章主要介绍了linux grub的启动加密及删除恢复方法,需要的朋友可以参考下
2016-10-10
Linux系统查看当前网络连接数的方法小结
在日常的运维和开发中,网络连接数的监控是一个非常重要的指标,当你需要排查网络问题或优化系统性能时,查看连接数是关键的一步,不同的 Linux 环境和发行版可能需要使用不同的方法来获取连接信息,本文给大家介绍了Linux系统查看当前网络连接数的方法
2024-12-12

linux环境不使用hadoop安装单机版spark的方法

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具