pycharm连接spark教程

 更新时间:2025年01月13日 15:07:47   作者:多学多看多练  
这篇文章详细介绍了如何在PyCharm中配置Hadoop和Spark环境,并提供了一个Python代码示例来测试连接

1.解压Hadoop

解压到任意盘,路径不要带中文路径

进入保存后的bin目录,查看,是否解压成功

2.解压spark

到任意位置,路径不要带有中文

3. 打开pycharm

把Hadoop,spark环境变量配置到pycharm中。

3.1新建项目

3.2在项目中创建一个python文件

3.3把Hadoop_home

python_home,pythonpath添加到Pycharm中.

  • 1.HADOOP_HOME
  • 2.SPARK_HOME
  • 3.PYTHONPATH

注意!!!

PYTHONPATH路径要添加到D:\spark\spark-2.4.6-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip下

3.4 检查是否有以下软件包

3.4.1 如果没有请按照以下教程下载,后期需要

3.4.2安装py4j

3.4.3安装pyspark推荐2.4.6版本

3.4.4安装pip

3.5安装findspark

4.把winutils.exe插件

放到Hadoop解压后的/bin目录下面

5.把以下代码

复制到4.2步骤中,新建的python文件中

#添加此代码
import findspark
findspark.init()
#在spark前,添加此代码
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("WordCount").getOrCreate()
spark.sparkContext.textFile("file:///D:/Hadoop/hadoop-2.7.7/README.txt")\
        .flatMap(lambda x: x.split(' '))\
        .map(lambda x: (x, 1))\
        .reduceByKey(lambda x, y: x + y)\
        .foreach(print)

必须要有这句话在spark前面!!!

6.测试

出现以上内容,表示pycharm连接spark成功。

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • 看看如何用Python绘制小米新版天价logo

    看看如何用Python绘制小米新版天价logo

    这篇文章主要介绍了看看如何用Python绘制小米新版天价logo,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下
    2021-04-04
  • python 根据excel中颜色区分读取的操作

    python 根据excel中颜色区分读取的操作

    这篇文章主要介绍了python 根据excel中颜色区分读取的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03
  • Python强化练习之Tensorflow2 opp算法实现月球登陆器

    Python强化练习之Tensorflow2 opp算法实现月球登陆器

    在面向对象出现之前,我们采用的开发方法都是面向过程的编程(OPP)。面向过程的编程中最常用的一个分析方法是“功能分解”。我们会把用户需求先分解成模块,然后把模块分解成大的功能,再把大的功能分解成小的功能,整个需求就是按照这样的方式,最终分解成一个一个的函数
    2021-10-10
  • Python读取MRI并显示为灰度图像实例代码

    Python读取MRI并显示为灰度图像实例代码

    这篇文章主要介绍了Python读取MRI并显示为灰度图像实例代码,具有一定借鉴价值,需要的朋友可以参考下
    2018-01-01
  • 使用PyTorch/TensorFlow搭建简单全连接神经网络

    使用PyTorch/TensorFlow搭建简单全连接神经网络

    在本篇博客中,我们将介绍如何使用两大深度学习框架——PyTorch 和 TensorFlow,构建一个简单的全连接神经网络,该网络包含输入层、一个隐藏层和输出层,适合初学者理解神经网络的基本构建模块及训练流程,需要的朋友可以参考下
    2025-02-02
  • Python常用工具之音频调整音量

    Python常用工具之音频调整音量

    这篇文章主要介绍一个可以将音频提升音量的python常用工具,代码具有一定的学习价值,感兴趣的小伙伴可以了解一下
    2021-11-11
  • Python使用MapReduce编程模型统计销量

    Python使用MapReduce编程模型统计销量

    MapReduce是面向大数据并行处理的计算模型、框架和平台,是一种计算引擎,可以把我们对大批量数据的计算通过抽象成map与reduce两个子任务进行计算从而更快的得到想要的结果
    2022-04-04
  • 使用Python Pandas处理亿级数据的方法

    使用Python Pandas处理亿级数据的方法

    这篇文章主要介绍了使用Python Pandas处理亿级数据的方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2019-06-06
  • django manage.py扩展自定义命令方法

    django manage.py扩展自定义命令方法

    今天小编就为大家分享一篇django manage.py扩展自定义命令方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-05-05
  • 基于Python爬虫采集天气网实时信息

    基于Python爬虫采集天气网实时信息

    这篇文章主要介绍了基于Python爬虫采集天气网实时信息,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-06-06

最新评论