Tag: apache spark 2.0

Spark 2.0数据集与DataFrame

从火花2.0.1开始我有一些问题。 我读了很多文档,但到目前为止找不到足够的答案: 有什么区别 df.select("foo") df.select($"foo") 我是否正确理解这一点 myDataSet.map(foo.someVal)是types安全的,不会转换为RDD但保持DataSet表示forms/无额外的开销(2.0.0性能) 所有其他命令,如select,..只是语法糖。 它们不是types安全的,可以使用地图代替。 我怎么能df.select("foo")types安全没有地图声明? 为什么我应该使用UDF / UADF而不是地图(假设地图停留在数据集表示中)?