pyspark给dataframe增加新的一列的实现示例

 更新时间:2020年04月24日 14:28:27   作者:晓东邪  
这篇文章主要介绍了pyspark给dataframe增加新的一列的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

熟悉pandas的pythoner 应该知道给dataframe增加一列很容易,直接以字典形式指定就好了,pyspark中就不同了,摸索了一下,可以使用如下方式增加

from pyspark import SparkContext
from pyspark import SparkConf
from pypsark.sql import SparkSession
from pyspark.sql import functions

spark = SparkSession.builder.config(conf=SparkConf()).getOrCreate()

data =   [['Alice', 19, 'blue', '["Alice", 19, "blue"]'],
  ['Jane', 20, 'green', '["Jane", 20, "green"]'],
   ['Mary', 21, 'blue', '["Mary", 21, "blue"]'], ]
frame = spark.createDataFrame(data, schema=["name", "age", "eye_color", "detail"])

frame.cache()
frame.show()

+-----+---+---------+--------------------+
| name|age|eye_color|              detail|
+-----+---+---------+--------------------+
|Alice| 19|     blue|["Alice", 19, "bl...|
| Jane| 20|    green|["Jane", 20, "gre...|
| Mary| 21|     blue|["Mary", 21, "blue"]|
+-----+---+---------+--------------------+

1、 增加常数项

frame2 = frame.withColumn("contant", functions.lit(10))
frame2.show()

+-----+---+---------+--------------------+-------+
| name|age|eye_color|              detail|contant|
+-----+---+---------+--------------------+-------+
|Alice| 19|     blue|["Alice", 19, "bl...|     10|
| Jane| 20|    green|["Jane", 20, "gre...|     10|
| Mary| 21|     blue|["Mary", 21, "blue"]|     10|
+-----+---+---------+--------------------+-------+

2、简单根据某列进行计算

2.1 使用 withColumn

frame3_1 = frame.withColumn("name_length", functions.length(frame.name))
frame3_1.show()

+-----+---+---------+--------------------+-----------+
| name|age|eye_color|              detail|name_length|
+-----+---+---------+--------------------+-----------+
|Alice| 19|     blue|["Alice", 19, "bl...|          5|
| Jane| 20|    green|["Jane", 20, "gre...|          4|
| Mary| 21|     blue|["Mary", 21, "blue"]|          4|
+-----+---+---------+--------------------+-----------+

2.2 使用 select

frame3_2 = frame.select(["name", functions.length(frame.name).alias("name_length")])
frame3_2.show()

+-----+-----------+
| name|name_length|
+-----+-----------+
|Alice|          5|
| Jane|          4|
| Mary|          4|
+-----+-----------+

2.3 使用 selectExpr

frame3_3 = frame.selectExpr(["name", "length(name) as name_length"])
frame3_3.show()

+-----+-----------+
| name|name_length|
+-----+-----------+
|Alice|          5|
| Jane|          4|
| Mary|          4|
+-----+-----------+

3、定制化根据某列进行计算

比如我想对某列做指定操作,但是对应的函数没得咋办,造,自己造~

frame4 = frame.withColumn("detail_length", functions.UserDefinedFunction(lambda obj: len(json.loads(obj)))(frame.detail))

# or
def length_detail(obj):
 return len(json.loads(obj))
frame4 = frame.withColumn("detail_length", functions.UserDefinedFunction(length_detail)(frame.detail))
frame4.show()

+-----+---+---------+--------------------+-------------+
| name|age|eye_color|              detail|detail_length|
+-----+---+---------+--------------------+-------------+
|Alice| 19|     blue|["Alice", 19, "bl...|            3|
| Jane| 20|    green|["Jane", 20, "gre...|            3|
| Mary| 21|     blue|["Mary", 21, "blue"]|            3|
+-----+---+---------+--------------------+-------------+

到此这篇关于pyspark给dataframe增加新的一列的实现示例的文章就介绍到这了,更多相关pyspark dataframe增加列内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python3+cgroupspy安装使用简介

    Python3+cgroupspy安装使用简介

    cgroups是Control groups的简称,是Linux内核提供的一种限制进程使用和种系统资源的特性,这篇文章主要介绍了Python3+cgroupspy安装使用教程,需要的朋友可以参考下
    2023-04-04
  • Python描述符descriptor使用原理解析

    Python描述符descriptor使用原理解析

    这篇文章主要介绍了Python 描述符descriptor使用原理解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-03-03
  • Selenium Webdriver元素定位的八种常用方式(小结)

    Selenium Webdriver元素定位的八种常用方式(小结)

    这篇文章主要介绍了Selenium Webdriver元素定位的八种常用方式(小结),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-01-01
  • Python函数的参数常见分类与用法实例详解

    Python函数的参数常见分类与用法实例详解

    这篇文章主要介绍了Python函数的参数常见分类与用法,结合实例形式较为详细的分析了Python函数的形参、实参、默认参数、可变参数等概念、使用方法及相关操作注意事项,需要的朋友可以参考下
    2019-03-03
  • python 实现tar文件压缩解压的实例详解

    python 实现tar文件压缩解压的实例详解

    这篇文章主要介绍了python 实现tar文件压缩解压的实例详解的相关资料,这里提供实现方法,帮助大家学习理解这部分内容,需要的朋友可以参考下
    2017-08-08
  • Python使用Windows API创建窗口示例【基于win32gui模块】

    Python使用Windows API创建窗口示例【基于win32gui模块】

    这篇文章主要介绍了Python使用Windows API创建窗口操作,结合实例形式分析了Python基于win32gui模块调用Windows API创建窗口具体操作步骤与相关实现技巧,需要的朋友可以参考下
    2018-05-05
  • pycharm 使用心得(八)如何调用另一文件中的函数

    pycharm 使用心得(八)如何调用另一文件中的函数

    事件环境: pycharm 编写了函数do() 保存在make.py 如何在另一个file里调用do函数?
    2014-06-06
  • Python内置random模块生成随机数的方法

    Python内置random模块生成随机数的方法

    这篇文章主要介绍了Python内置random模块生成随机数的方法,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-05-05
  • Python机器视觉之基于OpenCV的手势检测

    Python机器视觉之基于OpenCV的手势检测

    这篇文章主要为大家介绍了一个机器视觉项目:基于OpenCV的手势检测,文中的示例代码讲解详细,对我们学习Python和OpenCV有一定的帮助,感兴趣的可以跟随小编学习一下
    2021-12-12
  • 使用Python pyWinAuto库自动化Windows任务的示例代码

    使用Python pyWinAuto库自动化Windows任务的示例代码

    pywinauto是Python的一个强大的自动化库,它可以用于控制Windows应用程序的用户界面,本文将详细介绍pywinauto库的安装、基本用法和高级应用,以便你能够更好地了解如何使用它来自动化Windows应用程序,文中有详细的代码示例供大家参考,需要的朋友可以参考下
    2023-11-11

最新评论