Spark相关

概念

  1. 每个Spark的作业都是一个Application。

  2. 每个Application中对应的多个Jobs。

  3. 一个Action操作会触发一个job。(Count,Collect这类)

  4. 每个Job会拆分成多个Stage。(发生shuffle拆分一个stage)

  5. reduceByKey操作会发生shuffle

任务并行度配置

  1. 目前存在2个Executor,总共有20个CPU核心,那么分配的任务数量=20*2.5,即大约50个即可。

什么是Shuffle