关于IDEA创建spark maven项目并连接远程spark集群问题

更新时间：2021年08月30日 16:56:50 作者：PolarisHuster

这篇文章主要介绍了IDEA创建spark maven项目并连接远程spark集群,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下

环境：

scala：2.12.10

spark：3.0.3

1、创建scala maven项目，如下图所示：

2、

不同版本scala编译参数可能略有不同，笔者使用的scala版本是2.12.10，scala-archetype-simple插件生成的pom文件

<plugin>
  <groupId>org.scala-tools</groupId>
  <artifactId>maven-scala-plugin</artifactId>
  <version>2.15.0</version>
  <executions>
    <execution>
      <goals>
        <goal>compile</goal>
        <goal>testCompile</goal>
      </goals>
      <configuration>
        <args>
          <arg>-make:transitive</arg>
          <arg>-dependencyfile</arg>
          <arg>${project.build.directory}/.scala_dependencies</arg>
        </args>
      </configuration>
    </execution>
  </executions>
</plugin>

要去除-make:transitive这个参数，否则会报错。

3、创建SparkPi Object类

object SparkPi {
 
  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder
      .appName("Spark Pi")
      .master("spark://172.21.212.114:7077")
      .config("spark.jars","E:\\work\\polaris\\polaris-spark\\spark-scala\\target\\spark-scala-1.0.0.jar")
      .config("spark.executor.memory","2g")
      .config("spark.cores.max","2")
      .config("spark.driver.host", "172.21.58.28")
      .config("spark.driver.port", "9089")
      .getOrCreate()
    //spark = new SparkContext(conf).
    val slices = if (args.length > 0) args(0).toInt else 2
    val n = math.min(100000L * slices, Int.MaxValue).toInt // avoid overflow
    val count = spark.sparkContext.parallelize(1 until n, slices).map { i =>
      val x = random * 2 - 1
      val y = random * 2 - 1
      if (x*x + y*y <= 1) 1 else 0
    }.reduce(_ + _)
    println(s"Pi is roughly ${4.0 * count / (n - 1)}")
    spark.stop()
  }
}

4、执行打包命令：

5、点击Idea Run执行即可：

6、结果如下所示：

PS：

1、创建SparkSession时需要指定Idea所在机器ip地址，因为默认会把Spark Driver所在机器域名发送过去，导致无法解析（在spark 服务器上配置IDEA所在机器域名也可以，但是这样太不灵活）

2、spark-3.0.3默认使用的scala版本是2.12.10，所以要注意IDEA使用scala版本，否则会出现SerailizableId不一致的兼容问题

到此这篇关于IDEA创建spark maven项目并连接远程spark集群的文章就介绍到这了,更多相关IDEA spark集群内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Java命令设计模式优雅解耦命令和执行提高代码可维护性
本文介绍了Java命令设计模式，它将命令请求封装成对象，以达到解耦命令请求和执行者的目的，从而提高代码可维护性。本文详细阐述了该模式的设计原则、实现方法和优缺点，并提供了实际应用场景和代码示例，帮助读者深入理解和应用该模式
2023-04-04
Java与Scala创建List与Map的实现方式
这篇文章主要介绍了Java与Scala创建List与Map的实现方式，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2021-10-10
idea报错:java程序包com.github.xiaoymin.knife4j.spring.annotations
这篇文章主要介绍了idea报错:java程序包com.github.xiaoymin.knife4j.spring.annotations不存在问题解决,需要的朋友可以参考下
2023-06-06
巧妙mybatis避免Where 空条件的尴尬
这篇文章主要介绍了巧妙mybatis避免Where 空条件的尴尬，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-11-11
关于Java中@SuppressWarnings的正确使用方法
这篇文章主要介绍了关于Java中@SuppressWarnings的正确使用方法,@SuppressWarnings注解主要用在取消一些编译器产生的警告对代码左侧行列的遮挡，有时候这会挡住我们断点调试时打的断点,需要的朋友可以参考下
2023-05-05
Java中的System类、BigInteger类和BigDecimal类详解
这篇文章主要介绍了Java中的System类、BigInteger类和BigDecimal类详解,arraycopy()方法,复制数组元素,比较适合底层调用,一般使用Arrays.copyOf()完成复制数组,需要的朋友可以参考下
2023-09-09
mybatis plus in方法使用详解
这篇文章主要介绍了mybatis plus in方法使用详解，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-04-04
Java求两集合中元素交集的四种方法对比分析
这篇文章主要介绍了Java求两集合中元素交集的四种方法对比总结,四种求集合中元素交集的方法，按照在处理大量数据的效率来看，使用map集合的特性的方法效率最高，之后是使用Java流的方法，其次是使用for循环和迭代器的方法，需要的朋友可以参考下
2023-05-05
Mybatis往Mapper.xml文件中传递多个参数问题
这篇文章主要介绍了Mybatis往Mapper.xml文件中传递多个参数问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-05-05
Java使用dom4j解析XML
dom4j是一个开源的、基于Java的XML解析库,而在Java中使用dom4j库解析XML是一种常见的方法,下面就跟随小编一起来学习一下Java如何使用dom4j解析XML吧
2024-12-12

关于IDEA创建spark maven项目并连接远程spark集群问题

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具