首页 > 解决方案 > 如何比较预测频率数据与实际频率数据?

问题描述

我有一种机器学习方法,可以计算 jpeg 图像中的汽车。对于每张图像,我都有通过机器学习方法预测的汽车数量和基于人类数量的汽车数量的实际计数。这是数据集的样子:

             predicted_cars   real_cars
Image_1      2                1
Image_2      6                7
Image_3      0                0
Image_4      0                1
Image_5      0                0
Image_6      1                1
...
Image_5000   4                3

我最初的想法是使用线性回归,尽管由于该数据集具有离散计数数据,我认为这是不合适的。此外,由于大多数计数可能为 0,因此这可能会影响统计数据。

我可以采取什么方法来统计和/或以图形方式评估预测的汽车数量与“真实”汽车数量相比有多好?我正在使用 scikit-learn 和 pandas 在 Python 中工作。

标签: pythonpandasscikit-learnstatisticsfrequency

解决方案


在这里计算结果的准确性非常简单,例如可以采用平均绝对误差均方误差。您可以在sklearn.metrics.

对于结果的直观表示,一种方法是绘制堆积条形图:

df.plot(kind='bar', stacked=True)

在此处输入图像描述


推荐阅读