python - ValueError:在 groupby 对象上调用 pands value_counts() 时,操作数无法与形状一起广播
问题描述
我知道关于这个错误信息有很多问题。但是我还没有找到一个有这个确切问题的人。
我正在尝试对 pandas DataFrame 进行分组并计算值:
allfactor = dataframe.groupby(factor)[reference_area].value_counts()
其中 factor 和 reference_area 是数据框中的列名。这适用于某些列,例如 DGD015,但不适用于包括因子在内的其他一些列。
它给了我错误:
ValueError: operands could not be broadcast together with shape (421,) (419,)
我将把完整的错误信息放在这个问题的末尾。
分组本身有效:
In: grouped = data.groupby(factor)[reference_area]
grouped
Out: <pandas.core.groupby.generic.SeriesGroupBy object at 0x0000000B39D0F5F8>
我可以看到这是一个 numpy 广播错误,因为尺寸不具有相同的形状。并且有一些解决方法,例如使用[:, np.newaxis]
(地球科学的研究计算)或[:,None]
(如何像计算机科学家一样思考:使用 Python 3 学习)尝试将不“适合”的维度相乘并且无法从中得到拉伸。
但是,我不知道在numpy中发生错误时如何执行此操作,这是由pandas调用的,它是通过调用value_counts()调用的。
有人对这里的解决方法有想法吗?
我如何在此处访问 numpy 以告诉它只添加包含 NAN 的新轴以使尺寸适合?
这是完整的错误消息:
ValueError Traceback (most recent call last)
ipython-input-5-013b5262b34f> in module>()
----> 1 trial = get_positives_threshold(data, 'SHB23D', 'HV001', threshold=90)
2 print(trial)
ipython-input-3-80d69965e883> in get_positives_threshold(dataframe, factor, reference_area, threshold)
---> 33 allfactor = dataframe.groupby(factor)[reference_area].value_counts()
~\Documents\anaconda3\lib\site-packages\pandas\core\groupby\generic.py in value_counts(self, normalize, sort, ascending, bins, dropna)
-> 1139 labels = list(map(rep, self.grouper.recons_labels)) + [llab(lab, inc)]`
`~\Documents\anaconda3\lib\site-packages\numpy\core\fromnumeric.py in repeat(a, repeats, axis)
421 repeated_array : ndarray
422 Output array which has the same shape as a, except along
--> 423 the given axis.
~\Documents\anaconda3\lib\site-packages\numpy\core\fromnumeric.py in _wrapfunc(obj, method, *args, **kwds)
50 try:
51 return getattr(obj, method)(*args, **kwds)
---> 52
53 # An AttributeError occurs if the object does not have
54 # such a method in its class.`
ValueError: operands could not be broadcast together with shape (421,) (419,)
以下是有关数据框的一些信息:
最初是一个 .sav SPSS 文件,它被转换为一个羽毛文件。然后使用 pandas.read_feather(path_to_file) 读入。所有列的数据都是 dtype 分类的。大多数列的原始值包含 NaN、作为字符串的整数和字符串,但所有这些都存储为分类类型。
reference_area HV002 HV003 [...] DGD015 [...] factor [...]
1 '10001' 'NaN' 'Yes' [...] 'Refused' [...] '90' [...]
2 '10001' 'No' 'NaN' [...] '140' [...] '80' [...]
3 '24736' 'Yes' 'No' [...] '78' [...] 'Nan' [...]
4 '24736' 'Yes' 'No' [...] 'Other' [...] 'Technical Problem'
值是有代表性的但混合的,列名已更改以掩盖原始数据。
Pandas 版本 0.24.1
Numpy 版本 1.15.4
Python 版本 3.6.5
在 jupyter notebook 中使用 Anaconda 3 在我的环境中使用上述版本。
预期输出:
In: dataframe.groupby(factor)[reference_area].value_counts()
Out: factor reference_area
0 121640.0 1
1 52675.0 1
181826.0 1
10 40812.0 1
340804.0 2
360756.0 1
100 70679.0 18
70251.0 14
70019.0 13
70728.0 11
120070.0 11
..
Refused 90008.0 1
解决方案
问题似乎与未观察到的类别有关。来自关于 groupby 的 pandas 文档:
当使用分类石斑鱼(作为单个石斑鱼,或作为多个石斑鱼的一部分)时,observed 关键字控制是返回所有可能石斑鱼值的笛卡尔积(observed=False)还是仅返回那些观察到的石斑鱼(observed=True )。
在我的具体情况下计算笛卡尔积最终会导致广播错误。这就是为什么一些列有效而另一些列无效的原因:那些有效的列没有任何未观察到的类别,而那些无效的列有未观察到的类别。
为避免此问题,请observed = True
在分组时设置。这意味着groupby
将仅使用观察到的类别(即存在条目的那些类别)。在我的情况下,这将是:
allfactor = dataframe.groupby(factor, observed=True)[reference_area].value_counts()
据我的测试显示,这不会导致丢失数据框的条目以供进一步分析。未观察到的类别没有条目(甚至没有 NaN 值),因此我们不会在仅使用观察到的类别时丢失任何条目。但请注意,如果您确实想分析这些未观察到的类别,这不是您正在寻找的解决方案。
推荐阅读
- ios - Swift noob trying to add class paddingLabel for iOS App development
- perl - append previous line with current line if the file contains blanks
- c++ - Getting error "can not be used when making a shared object; recompile with -fPIC" although fpic is used
- angular - 如何从 Observable 中过滤数组以获得浅拷贝而不是深拷贝?
- python - 是否可以在 filter_by 之间使用 or_
- python - 如何在 Python 中动态打印列表
- git - BUG:有未合并的索引条目
- dialogflow-es - Dialogflow:如何根据用户请求通过 Google Translate API 自动翻译意图
- java - 运行测试脚本时出现 java.util.concurrent.TimeoutException
- react-native - 使用初始屏幕反应本机时不会出现图像