pyspark连接mysql数据库报错的解决

 更新时间:2023年11月07日 08:59:34   作者:猿界零零七  
本文主要介绍了pyspark连接mysql数据库报错的解决,因为spark中缺少连接MySQL的驱动程序,下面就来介绍一下解决方法,感兴趣的可以了解一下

使用pyspark连接mysql数据库代码如下

spark_conf = SparkConf().setAppName("MyApp").setMaster("local")
 
spark = SparkSession.builder.config(conf=spark_conf).getOrCreate()
 
url = "jdbc:mysql://localhost:3306/test?useUnicode=true&characterEncoding=UTF-8&useSSL=false"
table_name = "tab_tf"
properties = {
    "user": "root",
    "password": "root"
}
 
# 读取 MySQL 数据库中的数据
df = spark.read.jdbc(url=url, table=table_name, properties=properties)
# 展示数据
df.show()

执行时报错了,错误信息如下:

py4j.protocol.Py4JJavaError: An error occurred while calling o32.jdbc.
: java.sql.SQLException: No suitable driver
    at java.sql.DriverManager.getDriver(DriverManager.java:315)
    at org.apache.spark.sql.execution.datasources.jdbc.JDBCOptions$$anonfun$6.apply(JDBCOptions.scala:105)
    at org.apache.spark.sql.execution.datasources.jdbc.JDBCOptions$$anonfun$6.apply(JDBCOptions.scala:105)
    at scala.Option.getOrElse(Option.scala:121)
    at org.apache.spark.sql.execution.datasources.jdbc.JDBCOptions.<init>(JDBCOptions.scala:104)
    at org.apache.spark.sql.execution.datasources.jdbc.JDBCOptions.<init>(JDBCOptions.scala:35)
    at org.apache.spark.sql.execution.datasources.jdbc.JdbcRelationProvider.createRelation(JdbcRelationProvider.scala:32)
    at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:332)
    at org.apache.spark.sql.DataFrameReader.loadV1Source(DataFrameReader.scala:242)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:230)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:186)
    at org.apache.spark.sql.DataFrameReader.jdbc(DataFrameReader.scala:257)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
    at py4j.Gateway.invoke(Gateway.java:282)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.GatewayConnection.run(GatewayConnection.java:238)
    at java.lang.Thread.run(Thread.java:748)

经查询,是因为spark中缺少连接MySQL的驱动程序,于是乎下载了与自己mysql数据库版本一致的jar包,下载地址:https://downloads.mysql.com/archives/c-j/ 

查询mysql版本命令:mysql -V

下载完成后,解压,将mysql-connector-java-8.0.30.jar拷贝到spark安装目录的libs中

重新执行程序,问题解决,执行结果如下:

参考:py4j.protocol.Py4JJavaError: An error occurred while calling o32.jdbc.

到此这篇关于pyspark连接mysql数据库报错的解决的文章就介绍到这了,更多相关pyspark连接mysql内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

您可能感兴趣的文章:

相关文章

  • django批量导入xml数据

    django批量导入xml数据

    从网上下载的一些数据,excel表格,xml文件,txt文件等有时候我们想把它导入数据库,应该如何操作呢?下面我们就来详细讨论下。
    2016-10-10
  • python pandas loc 布尔索引示例说明

    python pandas loc 布尔索引示例说明

    loc跟iloc的区别,首先loc是location的意思,和iloc中i的意思是指integer,所以它只接受整数作为参数,详情见下面
    2022-03-03
  • Python调用IDM进行批量下载的实现

    Python调用IDM进行批量下载的实现

    本文主要介绍了Python调用IDM进行批量下载的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2025-04-04
  • python实现dbscan算法

    python实现dbscan算法

    DBSCAN 算法是一种基于密度的空间聚类算法,本文主要介绍了python实现dbscan算法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-05-05
  • Python 抓取数据存储到Redis中的操作

    Python 抓取数据存储到Redis中的操作

    这篇文章主要介绍了Python 抓取数据存储到Redis中的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-07-07
  • 用Python写漏洞验证脚本的代码

    用Python写漏洞验证脚本的代码

    这篇文章主要介绍了用Python写漏洞验证脚本,本文给大家分享完整实例代码,代码简单易懂,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-02-02
  • Python环境变量设置方法

    Python环境变量设置方法

    默认情况下,在windows下安装python之后,系统不会自动添加相应的环境变量。此时在命令行输入python命令是不能执行的,配置方法如下
    2016-08-08
  • 浅谈Python 多进程默认不能共享全局变量的问题

    浅谈Python 多进程默认不能共享全局变量的问题

    今天小编就为大家分享一篇浅谈Python 多进程默认不能共享全局变量的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • PyTorch中的padding(边缘填充)操作方式

    PyTorch中的padding(边缘填充)操作方式

    今天小编就为大家分享一篇PyTorch中的padding(边缘填充)操作方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • Python线程池模块ThreadPoolExecutor用法分析

    Python线程池模块ThreadPoolExecutor用法分析

    这篇文章主要介绍了Python线程池模块ThreadPoolExecutor用法,结合实例形式分析了Python线程池模块ThreadPoolExecutor的导入与基本使用方法,需要的朋友可以参考下
    2018-12-12

最新评论