首页 > 解决方案 > 我应该在 int 列上使用 StringIndexer 吗?

问题描述

您好,所以我有一个 pyspark 数据框,其中包含“月”和“day_of_week”列。

这些已由数字值表示:

这些是当我 printSchem() 时,被标识为整数。

我应该通过 StringIndexer 将它们识别为机器学习的分类变量,还是可以保持原样?

标签: pyspark

解决方案


StringIndexer旨在处理分类(字符串类型)。所以答案是否定的,你可以保持原样。


推荐阅读