如何将PySpark导入Python的放实现(2种)

 更新时间:2020年04月26日 15:00:49   作者:Lauhoman  
这篇文章主要介绍了如何将PySpark导入Python的放实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

方法一

使用findspark

使用pip安装findspark:

pip install findspark

在py文件中引入findspark:

>>> import findspark
>>> findspark.init()

导入你要使用的pyspark库

>>> from pyspark import *

优点:简单快捷
缺点:治标不治本,每次写一个新的Application都要加载一遍findspark

方法二

把预编译包中的Python库文件添加到Python的环境变量中

export SPARK_HOME=你的PySpark目录
export PYTHONPATH=$SPARK_HOME/libexec/python:$SPARK_HOME/libexec/python/build:$PYTHONPATH

优点:一劳永逸
缺点:对于小白可能不太了解环境变量是什么

问题1、ImportError: No module named pyspark

现象:

  • 已经安装配置好了PySpark,可以打开PySpark交互式界面;
  • 在Python里找不到pysaprk。

参照上面解决

问题2、ImportError: No module named ‘py4j'

现象:

已经安装配置好了PySpark,可以打开PySpark交互式界面;
按照上面的b方式配置后出现该问题。
解决方法:

把py4j添加到Python的环境变量中

export PYTHONPATH= $SPARK_HOME/python/lib/py4j-x.xx-src.zip:$PYTHONPATH

注意:这里的py4j-x.xx-src.zip根据自己电脑上的py4j版本决定。

测试成功的环境

  • Python: 3.7、2.7
  • PySpark: 1.6.2 - 预编译包
  • OS: Mac OSX 10.11.1

参考
Stackoverflow: importing pyspark in python shell
Stackoverflow: Why can't PySpark find py4j.java_gateway?

到此这篇关于如何将PySpark导入Python的放实现(2种)的文章就介绍到这了,更多相关PySpark导入Python内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python基础知识(一)变量与简单数据类型详解

    python基础知识(一)变量与简单数据类型详解

    这篇文章主要介绍了python变量与简单数据类型详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-04-04
  • python爬虫headers设置后无效的解决方法

    python爬虫headers设置后无效的解决方法

    这篇文章主要为大家详细介绍了python爬虫headers设置后无效的解决方案,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-10-10
  • python机器基础逻辑回归与非监督学习

    python机器基础逻辑回归与非监督学习

    这篇文章主要为大家介绍了python机器基础逻辑回归与非监督的学习讲解u,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步
    2021-11-11
  • python利用datetime模块计算时间差

    python利用datetime模块计算时间差

    python中通过datetime模块可以很方便的计算两个时间的差,datetime的时间差单位可以是天、小时、秒,甚至是微秒,下面我们就来详细看下datetime的强大功能吧
    2015-08-08
  • python代码实现五子棋游戏

    python代码实现五子棋游戏

    这篇文章主要为大家详细介绍了python代码实现五子棋游戏,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-05-05
  • Python中input()函数的用法实例小结

    Python中input()函数的用法实例小结

    我们编写的大部分程序,都需要读取输入并对其进行处理,而基本的输入操作是从键盘键入数据,Python从键盘键入数据,大多使用其内置的input()函数,下面这篇文章主要给大家介绍了关于Python中input()函数用法的相关资料,需要的朋友可以参考下
    2022-03-03
  • 通过selenium抓取某东的TT购买记录并分析趋势过程解析

    通过selenium抓取某东的TT购买记录并分析趋势过程解析

    这篇文章主要介绍了通过selenium抓取某东的TT购买记录并分析趋势过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-08-08
  • BatchNorm2d原理、作用及pytorch中BatchNorm2d函数的参数使用

    BatchNorm2d原理、作用及pytorch中BatchNorm2d函数的参数使用

    这篇文章主要介绍了BatchNorm2d原理、作用及pytorch中BatchNorm2d函数的参数使用方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-12-12
  • Python中最好用的json库orjson用法详解

    Python中最好用的json库orjson用法详解

    orjson是一个用于python的快速、正确的json库,它的基准是 json最快的python库,具有全面的单元、集成和互操作性测试,下面这篇文章主要给大家介绍了关于Python中最好用的json库orjson用法的相关资料,需要的朋友可以参考下
    2022-06-06
  • Keras搭建M2Det目标检测平台示例

    Keras搭建M2Det目标检测平台示例

    这篇文章主要为大家介绍了Keras搭建M2Det目标检测平台实现的源码示例,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-05-05

最新评论