Tag: apache spark 1.4

DataFrame连接优化 – 广播散列连接

我试图有效地join两个dataframe,其中一个是大的,第二个是小一点。 有没有办法避免所有这些洗牌? 我不能设置autoBroadCastJoinThreshold ,因为它只支持整数 – 而我试图广播的表略大于整数字节数。 有没有办法强制广播忽略这个variables?