java - 如何使用具有两列文本作为特征的 apache spark ML 训练逻辑回归?
问题描述
我正在尝试使用 Apache Spark 训练逻辑回归模型。我的数据框看起来像这样。
StructType schema = new StructType(new StructField[]{
new StructField("label", DataTypes.DoubleType, false, Metadata.empty()),
new StructField("text_A", DataTypes.StringType, false, Metadata.empty()),
new StructField("text_B", DataTypes.StringType, false, Metadata.empty()),
});
Dataset<Row> trainingDataFrame =spark.createDataFrame(trainingdata, schema);
我想同时使用text_A
和text_B
作为特征来训练模型,但我不想只是连接它们。我想让它们成为单独的特征类别(所以如果同一个词出现在text_A
andtext_B
中,它们被认为是不同的特征)。在当前的 lr 类中,它使用features
列作为默认值,并且只使用特征来训练模型。是否可以使用两个不同的列作为训练特征?或者如何将这两个文本特征合并到一个features
列中进行训练?
解决方案
所以我实际上在网上研究了一下,发现如何在DataFrame中合并多个特征向量?这似乎是对我的问题的准确答案。
推荐阅读
- ruby - 调用哈希值时如何将变量设置为键?
- sql - sql 其中 x = y 和 x = z 和
- python - 将 lxml 库添加到项目中
- java - 将 HTTPRequest 参数传递给另一个请求
- date - x 轴上带有日期的双向图
- javascript - 我使用一次后所有按钮都失去功能
- java - 扫描文件并将它们分配给对象数组时出现“不匹配错误”
- c++ - 从 bash 脚本(C++ 程序)将字符串推入 cin
- spring-data-jpa - 将 `@Transactional` 与 Spring 的 `@Retriable` 一起使用
- firebase - ionis 3中的Cordova插件firebase突然错误