pyspark - 我应该在 int 列上使用 StringIndexer 吗?
问题描述
您好,所以我有一个 pyspark 数据框,其中包含“月”和“day_of_week”列。
这些已由数字值表示:
1 在“月”a 中代表 januaray
“day_of_week”中的 1 代表星期一。
这些是当我 printSchem() 时,被标识为整数。
我应该通过 StringIndexer 将它们识别为机器学习的分类变量,还是可以保持原样?
解决方案
StringIndexer
旨在处理分类列(字符串类型)。所以答案是否定的,你可以保持原样。
推荐阅读
- java - 解释为什么在这个程序中引发 StackOverFlow 错误..?
- xml - XML Parsing Query 从 XML 中过滤多个数据
- java - 如何在 Android 上的 Retrofit 中显示响应 errorBody
- ios - 如何在 swift 4 中根据条件在 tableView 上显示隐藏 textview 并更改 tableView 的高度?
- minikube - 在 alpine:3.6/3.7 上运行 minibuke 时面临的问题
- javascript - 单击链接按钮后Gridview刷新
- javascript - NetSuite auth.ChangePassword
- java - 即使手机处于睡眠状态,如何设置服务持续从服务器获取数据?
- javascript - 如何在 owl carousel 的屏幕上显示上一个和下一个滑块的一半?
- python - Unicode:当作为 CGI 运行时,Python 3 在 Ubuntu 上忽略 LC_CTYPE