Tag: categorical data

如何处理spark-ml的分类function?

如何处理分类数据 spark-ml 而不 spark-mllib ? 认为文档不是很清楚,看起来像RandomForestClassifier , LogisticRegression这样的分类器有一个featuresCol参数,它指定DataFrame列的名称,以及一个labelCol参数,它指定了标签类的列名在DataFrame 。 很显然,我想在预测中使用多个特征,所以我尝试使用VectorAssembler将所有特征放在featuresCol下的单个vector中。 然而, VectorAssembler只接受数字types,布尔types和向量types(根据Spark网站),所以我不能把string放入我的特征向量中。 我应该如何继续?