PyCharm+PySpark远程调试的环境配置的方法

 更新时间:2018年11月29日 09:45:46   作者:Mars_myCafe  
今天小编就为大家分享一篇PyCharm+PySpark远程调试的环境配置的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

前言:前两天准备用 Python 在 Spark 上处理量几十G的数据,熟料在利用PyCharm进行PySpark远程调试时掉入深坑,特写此博文以帮助同样深处坑中的bigdata&machine learning fans早日出坑。

Version :Spark 1.5.0、Python 2.7.14

1. 远程Spark集群环境

首先Spark集群要配置好且能正常启动,版本号可以在Spark对应版本的官方网站查到,注意:Spark 1.5.0作为一个比较古老的版本,不支持Python 3.6+;另外Spark集群的每个节点的Python版本必须保持一致。这里只讲如何加入pyspark远程调试所需要修改的部分。在$SPARK_HOME/conf/spark-env.sh中添加一行:

export PYSPARK_PYTHON=/home/hadoop/anaconda2/bin/python2

这里的Python路径是集群上Python版本的路径,我这里是用的anaconda安装的Python2,所以路路径如上。正常启动Spark集群后,在命令行输入pyspark后回车,能正确进入到pyspark shell。

2. 本地PyCharm配置

首先将Spark集群的spark-1.5.0部署包拷贝到本地机器,并在/etc/hosts(Linux类机器)或C:\Windows\System32….\hosts(Windows机器)中加入Spark集群Master节点的IP与主机名的映射;本地正确安装Spark集群同版本Python;

安装py4j

PyCharm+PySpark远程调试的环境配置

添加spark-1.5.0/python目录

PyCharm+PySpark远程调试的环境配置

新建一个Python文件Simple,编辑Edit Configurations添加SPARK_HOME变量

PyCharm+PySpark远程调试的环境配置

写一个类似下面的简单测试程序

# -*- encoding: UTF-8 -*-
# @auther:Mars
# @datetime:2018-03-01
from pyspark import SparkContext

sc = SparkContext("spark://master:7077","Simple APP")
logData = sc.textFile("hdfs://master:9000/README.md").cache()

numAs = logData.filter(lambda s: 'a' in s).count()
numBs = logData.filter(lambda s: 'b' in s).count()

print("Lines with a: %i, lines with b: %i"%(numAs, numBs))

sc.stop()

运行可以得到看到下图,就OK了~

PyCharm+PySpark远程调试的环境配置

切记,1)本地与Spark集群的版本要一致;2)程序中不要用IP地址(不信可以试试,如果你用IP地址不报错,请告知我~谢谢)

以上这篇PyCharm+PySpark远程调试的环境配置的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • 详谈套接字中SO_REUSEPORT和SO_REUSEADDR的区别

    详谈套接字中SO_REUSEPORT和SO_REUSEADDR的区别

    下面小编就为大家分享一篇详谈套接字中SO_REUSEPORT和SO_REUSEADDR的区别,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04
  • python打包为linux可执行文件的详细图文教程

    python打包为linux可执行文件的详细图文教程

    这篇文章主要给大家介绍了关于python打包为linux可执行文件的详细图文教程,本文介绍的方法可以轻松地将Python代码变成独立的可执行文件,需要的朋友可以参考下
    2024-02-02
  • 一文带你搞懂Python中的数据容器

    一文带你搞懂Python中的数据容器

    这篇文章主要为大家详细介绍了Python中数据容器的相关资料,文中的示例代码讲解详细,对我们学习Python有一定的帮助,感兴趣的可以了解一下
    2022-11-11
  • python数据结构leetcode338比特位计数算法

    python数据结构leetcode338比特位计数算法

    这篇文章主要介绍了力扣刷题中python数据结构leetcode338比特位计数算法解析,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-06-06
  • Python日志模块logging简介

    Python日志模块logging简介

    这篇文章主要介绍了Python日志模块logging简介,本文讲解了Logger、Handler、Formatter、日志配置管理、通过文件配置管理日志等内容,需要的朋友可以参考下
    2015-04-04
  • Python机器学习入门(四)之Python选择模型

    Python机器学习入门(四)之Python选择模型

    这篇文章主要介绍了Python机器学习入门知识,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-08-08
  • python快速建立超简单的web服务器的实现方法

    python快速建立超简单的web服务器的实现方法

    某些条件测试,需要一个简单的web服务器测试一下,为此专门去配置个nginx 或者 apache服务器略显麻烦,这里就为大家介绍一下使用python快速建立超简单的web服务器的方法,需要的朋友可以参考下
    2018-02-02
  • python实现剪切功能

    python实现剪切功能

    这篇文章主要为大家详细介绍了一段python代码编写实现的剪切功能,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-01-01
  • python工具——Mimesis的简单使用教程

    python工具——Mimesis的简单使用教程

    这篇文章主要介绍了python工具——Mimesis的简单使用教程,帮助大家更好的理解和使用python,感兴趣的朋友可以了解下
    2021-01-01
  • python如何实现word批量转HTML

    python如何实现word批量转HTML

    这篇文章主要介绍了python如何实现word批量转HTML,帮助大家更好的理解和学习python,感兴趣的朋友可以了解下
    2020-09-09

最新评论