首页 > 解决方案 > 使用 sklearn 将多行作为单个批次传递以进行预测

问题描述

我正在尝试训练一个标准的 sklearn ml 模型(随机森林)。但是,我的数据是行的集合,每行都有一列datetime

示例数据:

category company date time
---------------------------
0        a       1    0700  
0        b       2    0500   
1        c       3    0400 
1        c       3    0300   
0        c       1    0800    
..

这里的分类是二元的,即01。在这里,数据集被处理,使得所有具有相同的行都date被归类为10

排序数据:

category company date time
---------------------------
0        a       1    0700
0        c       1    0800    
---------------------------
0        b       2    0500  
--------------------------- 
1        c       3    0400 
1        c       3    0300   
..

这里的描述是相对于date柱子进行的。每个日期批次没有固定的行数。

虽然我可以将每个单独的行及其分类传递给 sklearn 模型,但我不确定如何将一批传递给 sklearn 来预测,即要分类的具有相同日期的行数。

同一日期的未知数据(分类待预测):

category company date time
---------------------------
?        a       5    0700
?        c       5    0800    
?        d       5    0400 
?        d       5    0300   
..

一种建议的方法是“转置”我的数据集,以便每个批次都适合单行,其中多列每列对应于date集合中的一个条目。然而,这似乎太耗时了,因为每一列都会有一个唯一的标题,company_0company_1...。company_n

如何向 sklearn 传递单个日期(csv)的批处理数据集,以便它可以对该批处理中的所有条目进行分类,其中单个日期中的每一行都具有相同的分类,1或者0

标签: pythonmachine-learningscikit-learn

解决方案


推荐阅读