Spark提交参数说明和常见优化

  • 时间:
  • 浏览:4

会用spark,会调api和能用好spark是两回事,在进行开发的过程中,不仅要了解运行原理,时需了解业务,将离米 的方式和业务场景离米 的结合在一同,也能发挥最大的价值。

driver-memory

driver 不做任何计算和存储,可是我分类整理任务与yarn资源管理器和task交互,除非你是 spark-shell,全都一般 1-2g

executor_cores*num_executors

表示的是也能并行执行Task的数目

不宜太小或太少!一般不超过总队列 cores 的 25%,比如队列总 cores 1000,最大太少再说超过1000,最小不建议低于 40,除非日志量很小。

2:yarn-client/yarn-cluster

进入spark的home目录,执行以下命令查看帮助

下边给另一个 多多提交任务的样式

此种模式下适合小批量数据在本地调试代码

打开微信扫一扫,关注微信公众号【数据与算法联盟】

最近在搞另一个 多多价格分类模型,虽说是分类,用的是kmeans算法,求出聚类中心,对每个价格进行级别定级。着实说起来简单,但做起来却是并那么那么容易,不可是我全都数据量大,在执行任务时需全部全是数率间题可是我shuffle报错等。但在这整个过程中对scala编程,Spark rdd 机制,以及海量数据背景下对算法的认知全部全是很大的提升,某种 篇文章主可是我总结全都Spark在shell 终端提交jar包任务的之前 的相关知识,在后续文章会具体涉及到相关的”实战经历“。

在提交任务时的十有几个 重要参数

以上可是我通过spark-submit来提交另一个 多多任务

executor_cores

不宜为1!全都 work 守护进程运行运行中守护进程运行数过少,一般 2~4 离米 。

executor_memory

一般 6~10g 离米 ,最大不超过20G,全都会原应GC代价不足,或资源浪费严重。

参考:

1:http://www.cnblogs.com/haozhengfei/p/e570f24c43fa15f23ebb97929a1b7fe6.html

2:https://www.jianshu.com/p/4c584a3bac7d

增加每个executor的内存量,增加了内存量之前 ,对性能的提升,有三点:

注意:若使用的是本地文件时需在file路径前加:file://

spark提交任务常见的并全是模式

1:local/local[K]

转载请注明出处:http://blog.csdn.net/gamer_gyt

之前 着实MapReduce耗费时间,写另一个 多多同等效果的Spark守护进程运行调快就能执行完,很长一段时间个人全部全是在本地的单机环境进行测试学习,全都全都某种 错误的认知就会更加深刻,但事实却太少再说那么,MR着实慢是全都每一次操作数据都写在了磁盘上,一定量的IO造成了时间和资源的浪费,全都Spark是基于内存的计算引擎,相比MR,减少的是一定量的IO,但并全部全是说给另一个 多多Spark守护进程运行足够的资源,就可不也能为所欲为了,在提交另一个 多多spark守护进程运行时,不仅要考虑所在资源队列的总体情况,时需考虑代码并全是的高效性,要尽量处理一定量的shuffle操作和action操作,尽量使用同另一个 多多rdd。

Github:

全都之前 接触过Hadoop,对Spark也是了解全都皮毛,但上面隔了了吗才重新使用spark,期间也产生过全都错误的认识。

博主微博: