基于Jupyter notebook搭建Spark集群开发环境的详细过程

 更新时间:2021年10月12日 11:38:59   作者:apr鹏鹏  
Jupyter Notebook是一个开源并且使用很广泛项目,本文介绍如何基于Jupyter notebook搭建Spark集群开发环境,通过实例截图相结合给大家介绍的非常详细,需要的朋友参考下吧

一、概念介绍:

1、Sparkmagic:它是一个在Jupyter Notebook中的通过Livy服务器 Spark REST与远程Spark群集交互工作工具。Sparkmagic项目包括一组以多种语言交互运行Spark代码的框架和一些内核,可以使用这些内核将Jupyter Notebook中的代码转换在Spark环境运行。

2、Livy:它是一个基于Spark的开源REST服务,它能够通过REST的方式将代码片段或是序列化的二进制代码提交到Spark集群中去执行。它提供了以下这些基本功能:提交Scala、Python或是R代码片段到远端的Spark集群上执行,提交Java、Scala、Python所编写的Spark作业到远端的Spark集群上执行和提交批处理应用在集群中运行

二、基本框架

为下图所示:

三、准备工作:

具备提供Saprk集群,自己可以搭建或者直接使用华为云上服务,如MRS,并且在集群上安装Spark客户端。同节点(可以是docker容器或者虚拟机)安装Jupyter Notebook和Livy,安装包的路径为:https://livy.incubator.apache.org/download/

四、配置并启动Livy:

修改livy.conf参考:https://enterprise-docs.anaconda.com/en/latest/admin/advanced/config-livy-server.html

添加如下配置:

livy.spark.master = yarn
livy.spark.deploy-mode = cluster
livy.impersonation.enabled = false
livy.server.csrf-protection.enabled = false
livy.server.launch.kerberos.keytab=/opt/workspace/keytabs/user.keytab
livy.server.launch.kerberos.principal=miner
livy.superusers=miner

修改livy-env.sh, 配置SPARK_HOME、HADOOP_CONF_DIR等环境变量

export JAVA_HOME=/opt/Bigdata/client/JDK/jdk
export HADOOP_CONF_DIR=/opt/Bigdata/client/HDFS/hadoop/etc/hadoop
export SPARK_HOME=/opt/Bigdata/client/Spark2x/spark
export SPARK_CONF_DIR=/opt/Bigdata/client/Spark2x/spark/conf
export LIVY_LOG_DIR=/opt/workspace/apache-livy-0.7.0-incubating-bin/logs
export LIVY_PID_DIR=/opt/workspace/apache-livy-0.7.0-incubating-bin/pids
export LIVY_SERVER_JAVA_OPTS="-Djava.security.krb5.conf=/opt/Bigdata/client/KrbClient/kerberos/var/krb5kdc/krb5.conf -Dzookeeper.server.principal=zookeeper/hadoop.hadoop.com -Djava.security.auth.login.config=/opt/Bigdata/client/HDFS/hadoop/etc/hadoop/jaas.conf -Xmx128m"

启动Livy:

./bin/livy-server start

五、安装Jupyter Notebook和sparkmagic

Jupyter Notebook是一个开源并且使用很广泛项目,安装流程不在此赘述

sparkmagic可以理解为在Jupyter Notebook中的一种kernel,直接pip install sparkmagic。注意安装前系统必须具备gcc python-dev libkrb5-dev工具,如果没有,apt-get install或者yum install安装。安装完以后会生成$HOME/.sparkmagic/config.json文件,此文件为sparkmagic的关键配置文件,兼容spark的配置。关键配置如图所示

其中url为Livy服务的ip和端口,支持http和https两种协议

六、添加sparkmagic kernel

PYTHON3_KERNEL_DIR="$(jupyter kernelspec list | grep -w "python3" | awk '{print $2}')"
KERNELS_FOLDER="$(dirname "${PYTHON3_KERNEL_DIR}")"
SITE_PACKAGES="$(pip show sparkmagic|grep -w "Location" | awk '{print $2}')"
cp -r ${SITE_PACKAGES}/sparkmagic/kernels/pysparkkernel ${KERNELS_FOLDER}

七、在Jupyter Notebook中运行spark代码验证:

八、访问Livy查看当前session日志:

到此这篇关于基于Jupyter notebook搭建Spark集群开发环境的详细过程的文章就介绍到这了,更多相关基于Jupyter notebook搭建Spark集群开发环境内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 面试的时候该如何自我介绍详解

    面试的时候该如何自我介绍详解

    面试中自我介绍、项目是我们的重头戏,在面试二面、三面中都起到了至关重要的的作用,这篇文章主要介绍了面试的时候该如何自我介绍的相关资料,需要的朋友可以参考下
    2008-06-06
  • OAuth从1.0到2.1的发展之路

    OAuth从1.0到2.1的发展之路

    OAUTH协议为用户资源的授权提供了一个安全的、开放而又简易的标准。简单来说就是提供除了"账户密码"验证方式以外的验证授权方式。这篇文章介绍了OAuth从1.0到2.1的发展之路,感兴趣的同学可以收藏一下
    2021-11-11
  • 人人都能看懂的 6 种限流实现方案(纯干货)

    人人都能看懂的 6 种限流实现方案(纯干货)

    这篇文章主要介绍了人人都能看懂的 6 种限流实现方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-05-05
  • Win10环境借助DockerDesktop部署大数据时序数据库Apache Druid的操作方法

    Win10环境借助DockerDesktop部署大数据时序数据库Apache Druid的操作方法

    文章介绍了如何在Windows 10环境下使用Docker Desktop部署最新版的大数据时序数据库Apache Druid 32.0.0,通过官方提供的docker-compose.yml文件和环境配置,成功启动了Zookeeper、PostgreSQL和6个Druid容器,感兴趣的朋友一起看看吧
    2025-02-02
  • git合并部分提交的实现

    git合并部分提交的实现

    在进行Git合并某一次提交时,有时会出现冲突,本文主要介绍了git合并部分提交的实现,具有一定的参考价值,感兴趣的可以了解一下
    2023-08-08
  • 2022编程语言需求排名出炉:第一不是Python,也不是Java

    2022编程语言需求排名出炉:第一不是Python,也不是Java

    编程语言的流行程度、发展前景、就业市场这些一直都是程序员们非常关注的话题,需求排名是程序员们关注学习的风向标,毕竟是市场经济,学以致用,如果热门编程不了解,都不好意思告诉别人你是程序员。编程语言的种类有超过200+,但还有很多不为人知。
    2022-12-12
  • Web前端和JAVA应该学哪个?哪个就业形势更胜一筹?

    Web前端和JAVA应该学哪个?哪个就业形势更胜一筹?

    这篇文章主要介绍了Web前端和JAVA应该学哪个?哪个就业形势更好?本文通过几个城市的薪资收入对比分析,需要的朋友可以参考下
    2020-07-07
  • 最新Adobe2022 全家桶永久激活无限使用 附安装包下载(一键安装)

    最新Adobe2022 全家桶永久激活无限使用 附安装包下载(一键安装)

    众所周知,Adobe系列的软件每年都会更新一个大版本,这不,2022年还没到来,可Adobe2022已经更新了,所以最新版一出来,就有安装体验,整体效果非常不错,今天就把所有资源分享给大家
    2021-12-12
  • APAP ALV进阶写法及优化详解

    APAP ALV进阶写法及优化详解

    这篇文章主要为大家介绍了APAP ALV进阶写法及优化详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-09-09
  • 将来会是Python、Java、Golang三足鼎立的局面吗

    将来会是Python、Java、Golang三足鼎立的局面吗

    python的优势在于数据处理和人工智能等方向,所以go只可能吞噬Java的份额,很难撼动Python的奶酪,所以将来会是Python、Java、Golang三足鼎立的局面吗
    2019-04-04

最新评论