Win10搭建Pyspark2.4.4+Pycharm开发环境的图文教程(亲测)

更新时间：2023年02月20日 09:36:21 作者：Zakza

本文主要介绍了Win10搭建Pyspark2.4.4+Pycharm开发环境的图文教程(亲测)，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

下载资源

hadoop3.0.0
spark-2.4.4-bin-without-hadoop
winutils下载(对应hadoop3.0.1的bin目录覆盖本地hadoop的bin目录)
jdk1.8(默认已按照配置)
conda/anaconda(默认已安装)

注意:cdh6.3.2的spark为2.4.0但是使用2.4.0本地pyspark有bug,下载的文件可能在第一次解压缩后,如未出现目录,则需要修改文件后缀为zip,再次解压缩

python环境(推荐cmd非powershell)

spark2.4.x不支持python3.7以上版本

conda create -n pyspark2.4 python=3.7
activate pyspark2.4
pip install py4j
pip install psutil

pyspark安装方法(推荐一)

%SPARK_HOME%\python\pyspark目录复制到%CONDA_HOME%\pyspark2.4\Lib\site-packages下
pip install pyspark=2.4.4

配置环境变量(自行百度)

以下只是示例,根据实际情况修改,路径不要有空格,如果有使用mklink /J 软链接目录路径

系统变量添加
HADOOP_HOME
E:\bigdata\ENV\hadoop-3.0.0
 
SPARK_HOME
E:\bigdata\ENV\spark-2.4.4-bin-without-hadoop
 
PYSPARK_PYTHON
C:\Users\zakza\anaconda3\envs\pyspark2.4\python.exe
 
PATH添加
%HADOOP_HOME%\bin
%SPARK_HOME%\bin

修改配置文件

配置一 %SPARK_HOME%\conf目录下新建spark-env.cmd文件,内容如下

FOR /F %%i IN ('hadoop classpath') DO @set SPARK_DIST_CLASSPATH=%%i

配置二 %SPARK_HOME%\conf\目录下新建log4j.properties文件,内容如下

#
# Licensed to the Apache Software Foundation (ASF) under one or more
# contributor license agreements.  See the NOTICE file distributed with
# this work for additional information regarding copyright ownership.
# The ASF licenses this file to You under the Apache License, Version 2.0
# (the "License"); you may not use this file except in compliance with
# the License.  You may obtain a copy of the License at
#
#    http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
#
 
# Set everything to be logged to the console
log4j.rootCategory=WARN, console
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.target=System.err
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n
 
# Set the default spark-shell log level to WARN. When running the spark-shell, the
# log level for this class is used to overwrite the root logger's log level, so that
# the user can have different defaults for the shell and regular Spark apps.
log4j.logger.org.apache.spark.repl.Main=WARN
 
# Settings to quiet third party logs that are too verbose
log4j.logger.org.spark_project.jetty=WARN
log4j.logger.org.spark_project.jetty.util.component.AbstractLifeCycle=ERROR
log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFO
log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFO
log4j.logger.org.apache.parquet=ERROR
log4j.logger.parquet=ERROR
 
# SPARK-9183: Settings to avoid annoying messages when looking up nonexistent UDFs in SparkSQL with Hive support
log4j.logger.org.apache.hadoop.hive.metastore.RetryingHMSHandler=FATAL
log4j.logger.org.apache.hadoop.hive.ql.exec.FunctionRegistry=ERROR

配置Pycharm

注意:配置好环境变量重启下电脑,不然可能存在pycharm无法加载系统环境变量的情况

wc.txt

hello hadoop
hadoop spark python
flink storm spark
master slave
first
second thrid
kafka scikit-learn
flume
hive spark-streaming
hbase

wordcount测试代码

from pyspark import SparkContext
 
if __name__ == '__main__':
    sc = SparkContext('local', 'WordCount')
    textFile = sc.textFile("wc.txt")
    wordCount = textFile.flatMap(lambda line: line.split(" ")).map(lambda word: (word, 1)).reduceByKey(
        lambda a, b: a + b)
    wordCount.foreach(print)

正常运行结果:

常见问题:

spark-shell报错Caused by: java.lang.ClassNotFoundException: org.slf4j.Logger

解决方法:见上述配置一

Pyspark报错ModuleNotFoundError: No module named 'resource'

解决方法:spark2.4.0存在的bug,使用spark2.4.4

Pyspark报错org.apache.spark.sparkexception: python worker failed to connect back

解决方法:环境变量未配置正确,检查是否遗漏,并检查pycharm的configuration的环境变量里面能够看到

其他

关于%SPARK_HOME%\python\lib下的py4j-0.10.7-src.zip,pyspark.zip(未配置运行正常),也可以尝试添加到项目

到此这篇关于Win10搭建Pyspark2.4.4+Pycharm开发环境的图文教程(亲测)的文章就介绍到这了,更多相关Pyspark Pycharm开发环境内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python入门_浅谈数据结构的4种基本类型
下面小编就为大家带来一篇Python入门_浅谈数据结构的4种基本类型。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2017-05-05
Python序列化与反序列化pickle用法实例
这篇文章主要介绍了Python序列化与反序列化pickle用法实例,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-11-11
python GUI库图形界面开发之PyQt5窗口类QMainWindow详细使用方法
这篇文章主要介绍了python GUI库图形界面开发之PyQt5窗口类QMainWindow详细使用方法,需要的朋友可以参考下
2020-02-02
Pytorch使用VGG16模型进行预测猫狗二分类实战
VGG16是Visual Geometry Group的缩写,它的名字来源于提出该网络的实验室,本文我们将使用PyTorch来实现VGG16网络,用于猫狗预测的二分类任务,我们将对VGG16的网络结构进行适当的修改,以适应我们的任务,需要的朋友可以参考下
2023-08-08
如何使用python检测某网盘链接是否有效
这篇文章主要为大家介绍了使用python检测某网盘链接是否有效的方法示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2024-01-01
Python 实现驱动AI机器人
这篇文章主要介绍了Python 实现驱动AI机器人,下文围绕利用Python 实现驱动AI机器人的相关资料展开内容，需要的小伙伴可以参考一下
2022-02-02
python实现聊天小程序
这篇文章主要为大家详细介绍了python实现聊天小程序，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-03-03
pandas处理csv文件的方法步骤
这篇文章主要介绍了pandas处理csv文件的方法步骤，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-10-10
Python多线程以及多线程中join()的使用方法示例
join()是线程类Thread的方法,官方的说明是：等待这个线程结束,也就是说当前线程等待这个线程结束后再继续执行,这篇文章主要给大家介绍了关于Python多线程以及多线程中join()使用的相关资料,需要的朋友可以参考下
2021-07-07
关于Qt6中QtMultimedia多媒体模块的重大改变分析
如果您一直在 Qt 5 中使用 Qt Multimedia，则需要对您的实现进行更改。这篇博文将尝试引导您完成最大的变化，同时查看 API 和内部结构
2021-09-09