首页 > 解决方案 > ValueError:在 groupby 对象上调用 pands value_counts() 时,操作数无法与形状一起广播

问题描述

我知道关于这个错误信息有很多问题。但是我还没有找到一个有这个确切问题的人。

我正在尝试对 pandas DataFrame 进行分组并计算值:

allfactor = dataframe.groupby(factor)[reference_area].value_counts()

其中 factor 和 reference_area 是数据框中的列名。这适用于某些列,例如 DGD015,但不适用于包括因子在内的其他一些列。
它给了我错误:

ValueError: operands could not be broadcast together with shape (421,) (419,)

我将把完整的错误信息放在这个问题的末尾。
分组本身有效:

In: grouped = data.groupby(factor)[reference_area]
    grouped
Out: <pandas.core.groupby.generic.SeriesGroupBy object at 0x0000000B39D0F5F8>

我可以看到这是一个 numpy 广播错误,因为尺寸不具有相同的形状。并且有一些解决方法,例如使用[:, np.newaxis]地球科学的研究计算)或[:,None]如何像计算机科学家一样思考:使用 Python 3 学习)尝试将不“适合”的维度相乘并且无法从中得到拉伸。

但是,我不知道在numpy中发生错误时如何执行此操作,这是由pandas调用的,它是通过调用value_counts()调用的。

有人对这里的解决方法有想法吗?

我如何在此处访问 numpy 以告诉它只添加包含 NAN 的新轴以使尺寸适合?

这是完整的错误消息:

ValueError          Traceback (most recent call last)
ipython-input-5-013b5262b34f> in module>()
----> 1 trial = get_positives_threshold(data, 'SHB23D', 'HV001', threshold=90)
      2 print(trial)
ipython-input-3-80d69965e883> in get_positives_threshold(dataframe, factor, reference_area, threshold)
---> 33         allfactor = dataframe.groupby(factor)[reference_area].value_counts()
~\Documents\anaconda3\lib\site-packages\pandas\core\groupby\generic.py in value_counts(self, normalize, sort, ascending, bins, dropna)
-> 1139         labels = list(map(rep, self.grouper.recons_labels)) + [llab(lab, inc)]`
`~\Documents\anaconda3\lib\site-packages\numpy\core\fromnumeric.py in repeat(a, repeats, axis)
    421     repeated_array : ndarray
    422         Output array which has the same shape as a, except along
--> 423         the given axis.
~\Documents\anaconda3\lib\site-packages\numpy\core\fromnumeric.py in _wrapfunc(obj, method, *args, **kwds)
     50     try:
     51         return getattr(obj, method)(*args, **kwds)
---> 52 
     53     # An AttributeError occurs if the object does not have
     54     # such a method in its class.`


ValueError: operands could not be broadcast together with shape (421,) (419,)

以下是有关数据框的一些信息:

最初是一个 .sav SPSS 文件,它被转换为一个羽毛文件。然后使用 pandas.read_feather(path_to_file) 读入。所有列的数据都是 dtype 分类的。大多数列的原始值包含 NaN、作为字符串的整数和字符串,但所有这些都存储为分类类型。

  reference_area   HV002   HV003  [...] DGD015    [...] factor    [...]
1 '10001'          'NaN'   'Yes'  [...] 'Refused' [...] '90'      [...]
2 '10001'          'No'    'NaN'  [...] '140'     [...] '80'      [...]
3 '24736'          'Yes'   'No'   [...] '78'      [...] 'Nan'     [...]
4 '24736'          'Yes'   'No'   [...] 'Other'   [...] 'Technical Problem'

值是有代表性的但混合的,列名已更改以掩盖原始数据。

Pandas 版本 0.24.1
Numpy 版本 1.15.4
Python 版本 3.6.5
在 jupyter notebook 中使用 Anaconda 3 在我的环境中使用上述版本。

预期输出:

In: dataframe.groupby(factor)[reference_area].value_counts()
Out: factor  reference_area 
0                  121640.0     1
1                  52675.0      1
                   181826.0     1
10                 40812.0      1
                   340804.0     2
                   360756.0     1
100                70679.0     18
                   70251.0     14
                   70019.0     13
                   70728.0     11
                   120070.0    11
                               ..
Refused            90008.0      1

标签: pythonpandasnumpybroadcasting

解决方案


问题似乎与未观察到的类别有关。来自关于 groupby 的 pandas 文档:

当使用分类石斑鱼(作为单个石斑鱼,或作为多个石斑鱼的一部分)时,observed 关键字控制是返回所有可能石斑鱼值的笛卡尔积(observed=False)还是仅返回那些观察到的石斑鱼(observed=True )。

在我的具体情况下计算笛卡尔积最终会导致广播错误。这就是为什么一些列有效而另一些列无效的原因:那些有效的列没有任何未观察到的类别,而那些无效的列有未观察到的类别。

为避免此问题,请observed = True在分组时设置。这意味着groupby将仅使用观察到的类别(即存在条目的那些类别)。在我的情况下,这将是:
allfactor = dataframe.groupby(factor, observed=True)[reference_area].value_counts()

据我的测试显示,这不会导致丢失数据框的条目以供进一步分析。未观察到的类别没有条目(甚至没有 NaN 值),因此我们不会在仅使用观察到的类别时丢失任何条目。但请注意,如果您确实想分析这些未观察到的类别,这不是您正在寻找的解决方案。


推荐阅读