python - 如何在机器学习中对包含(假设超过 200 个)分类值的列进行编码?
问题描述
我想对一列进行编码(比如名称 - 包含 1000 辆或更多汽车的名称)。我尝试使用以下代码对列进行 OneHotEncoding:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct= ColumnTransformer(transformers=[('encoder',OneHotEncoder(),[0,1,4,5,6])],remainder='passthrough')
x = np.array(ct.fit_transform(x))
当我运行这行代码时,它给出了 2 个错误 - 1)无法将字符串转换为浮点数:2)对于稀疏输出,所有列都应该是数字或可转换为数字。
有什么方法可以对包含 1000 个或更多分类值的列进行编码?
解决方案
推荐阅读
- angular - 角度 4 的剑道 - 类型“{}”中缺少网格
- model-view-controller - 如何使用 web api 从两个表中获取数据
- python - 如何使用 Python 在 Nifi 中编写自定义处理器?
- .htaccess - .htaccess 从子域重定向到子目录和 https 规则
- batch-file - 使用带有 <~> 作为字段分隔符的 SQLCmd 将 SQL 表导出到文本文件中
- xml - Xslt 不同的值并动态地将元素添加到现有的 xml
- html - 如何在 HTML 电子邮件模板中为 OUTLOOK 的背景图像居中对齐文本?
- python - 如何使用逗号分隔符和逗号千位分隔符读取 pandas CSV 文件
- react-native - Jest TransformIgnorePatterns 所有 node_modules 用于 React-Native Preset
- php - switch case语句中php开始标记前的前导空格