05-集群提交:spark-submit脚本
2022/8/14 23:53:42
本文主要是介绍05-集群提交:spark-submit脚本,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
结构: 命令 + 选项 + 文件 + 参数
基础选项:优先级:代码中配置【程序特有】 > 参数选项【运行模式、程序名称、资源选项】 > 配置文件【公共配置】
-
--master:用于指定程序的运行的模式:Local、Standalone、YARN、Mesos、K8s
- local[N]:使用本地模式,给定N核CPU
- spark://主机名:7077:使用Standalone模式,提交给Master
- yarn:使用YARN集群模式,提交给RM
-
--deploy-mode:决定了Driver进程运行的位置,两种模式:client【默认】、cluster
-
--class:运行某个类,用Python写不用管,用于Java/Scala
-
--name:指定程序的名字,等同于代码中setAppName
-
--jars:指定额外的第三方依赖包,例如读写MySQL,需要MySQL的驱动包
-
--conf:指定一些其他配置--conf key=value, 等同于代码中set方法
Spark程序集群模式运行时会启动两种进程:Driver驱动进程 + Executor计算进程,每种进程运行时都需要资源
Driver资源选项
- --driver-memory:用于指定Driver进程运行时能够使用的内存大小
- --driver-cores:用于指定Driver进程运行时能够使用CPU的核数
- --supervise:用于保证Driver进程安全,故障以后会自动重启
Executor资源选项
-
--executor-memory:用于指定每个Executor能使用的内存数
-
--executor-cores:用于指定每个Executor能使用的CPU核心数
-
--total-executor-cores:用于指定Standalone情况下,所有Executor使用的总CPU核数
-
--num-executors:用于Spark on YARN情况下,指定启动的Executor的个数
-
--queue:用于指定将程序提交到哪个队列中运行
这篇关于05-集群提交:spark-submit脚本的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-05-13TiDB + ES:转转业财系统亿级数据存储优化实践
- 2024-05-09“2024鸿蒙零基础快速实战-仿抖音App开发(ArkTS版)”实战课程已上线
- 2024-05-09聊聊如何通过arthas-tunnel-server来远程管理所有需要arthas监控的应用
- 2024-05-09log4j2这么配就对了
- 2024-05-09nginx修改Content-Type
- 2024-05-09Redis多数据源,看这篇就够了
- 2024-05-09Google Chrome驱动程序 124.0.6367.62(正式版本)去哪下载?
- 2024-05-09有没有大佬知道这种数据应该怎么抓取呀?
- 2024-05-09这种运行结果里的10.100000001,怎么能最快改成10.1?
- 2024-05-09企业src漏洞挖掘-有意思的命令执行