首页 > 解决方案 > 拟合 RandomForest 模型但出现 Pandas 错误

问题描述

我有 3 列:id、sentiment、review。我创建向量并将其放入 RandomForest 以预测情绪。

在以下行: forest = forest.fit(trainDataVecs, train["sentiment"])

我不断收到以下错误:错误是:ValueError:输入包含 NaN、无穷大或对于 dtype('float32') 来说太大的值。

我让它在一个非常小的示例文件中工作,但它拒绝在我的大型主文件上工作。我已经检查过了,我 100% 确定没有 NULL 条目。有些评论很长,我认为必须发生的事情是评论长度在某个地方是个问题。

请帮忙!

标签: pythonpandas

解决方案


问题似乎出在您正在阅读其中一个数字列时。我建议当您从源读取数据时,将类型更改为更精确的类型,例如np.float64或更大,并删除无效值,如下所示:

# A is the vector you want to clean
A[~np.isnan(A)] = 0.0

推荐阅读