python - 为什么 groupby.diff 这么慢?
问题描述
我想计算每个组的系列差异,如下例所示:
In [24]: rnd_ser = pd.Series(np.random.randn(5000))
...: com_ser = pd.concat([rnd_ser] * 500, keys=np.arange(500), names=['Date', 'ID'])
In [25]: d1 = com_ser.groupby("Date").diff()
In [26]: d2 = com_ser - com_ser.groupby("Date").shift()
In [27]: np.allclose(d1.fillna(0), d2.fillna(0))
Out[27]: True
有两种方法可以解决这个问题,但是第一种性能很差:
In [30]: %timeit d1 = com_ser.groupby("Date").diff()
616 ms ± 5.62 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
In [31]: %timeit d2 = com_ser - com_ser.groupby("Date").shift()
95 ms ± 326 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
这是预期的还是错误的?
我的环境的详细信息:
In [23]: pd.show_versions()
INSTALLED VERSIONS
------------------
commit: None
python: 3.7.1.final.0
python-bits: 64
OS: Windows
OS-release: 10
machine: AMD64
processor: Intel64 Family 6 Model 158 Stepping 10, GenuineIntel
byteorder: little
LC_ALL: None
LANG: None
LOCALE: None.None
pandas: 0.23.4
pytest: 3.9.3
pip: 18.1
setuptools: 40.5.0
Cython: 0.29
numpy: 1.15.3
scipy: 1.1.0
pyarrow: None
xarray: None
IPython: 7.1.1
sphinx: 1.8.1
patsy: 0.5.1
dateutil: 2.7.5
pytz: 2018.7
blosc: None
bottleneck: 1.2.1
tables: 3.4.4
numexpr: 2.6.8
feather: None
matplotlib: 3.0.1
openpyxl: 2.5.9
xlrd: 1.1.0
xlwt: 1.3.0
xlsxwriter: 1.1.2
lxml: 4.2.5
bs4: 4.6.3
html5lib: 1.0.1
sqlalchemy: 1.2.12
pymysql: None
psycopg2: None
jinja2: 2.10
s3fs: None
fastparquet: None
pandas_gbq: None
pandas_datareader: None
解决方案
FWIW,我在我的机器上看到类似的数字
%timeit d1 = com_ser.groupby("Date").diff()
523 ms ± 32.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
%timeit d2 = com_ser - com_ser.groupby("Date").shift()
80.8 ms ± 2.31 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
Pandas 的实施diff()
似乎很慢groupby()
例如,如果我制作一个大系列
big_ser = pd.Series(np.random.randn(int(1e7)))
然后比较移位和减法与Series.diff()
%timeit big_ser - big_ser.shift()
46.3 ms ± 789 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
%timeit big_ser.diff()
41.6 ms ± 488 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
那么实现之间的时间是相同的。接下来,当您查看内部源代码时,Series.diff
它在评论中明确说明
def diff(arr, n, axis=0):
"""
difference of n between self,
analogous to s-s.shift(n)
所以我认为它必须是groupby
特定的一些开销diff()
推荐阅读
- javascript - React native 只运行一次,现在它给了我错误
- python - 如何使用一个命令提取 numpy 数组的切片和特定列?
- rust - 如何在 Rust 中使用 `dlsym()`
- ruby-on-rails - ActionText:具有表格支持和白名单属性的自定义附件(如样式)
- unity3d - 在 Ubuntu 中使用 Unity,但为 Windows 平台构建
- reactjs - 如何动态地将 React Web 组件添加到父组件?
- python-xarray - 将变量分配给数据集,沿维度的每个位置的值相同
- javascript - 您如何从使用背景图像获取的包含文件中更改 svg 元素的颜色: url("file-name.svg");
- react-native - 在 react native 中获取之前的网名
- node.js - 为什么我的 express.js 服务器失败了初始块流请求而不是下一个?