在Apache Spark Web UI中,“跳过舞台”是指什么?

从我的Spark UI。 这是什么意思跳过?

在这里输入图像说明

通常这意味着数据已经从caching中获取,并且不需要重新执行给定的阶段。 这与您的DAG是一致的,表明下一阶段需要进行混洗( reduceByKey )。 每当涉及洗牌时,Spark会自动caching生成的数据 :

Shuffle也会在磁盘上生成大量的中间文件。 从Spark 1.3开始,这些文件将被保留,直到相应的RDD不再使用并被垃圾回收。 这样做是为了在重新计算谱系时不需要重新创build洗牌文件。