python - 使用 Pandas 整理 Excel 工作表
问题描述
我有一个超过 40,000 行的 Excel 表。第一列是日期时间,每分钟都有一个值。
我想减少这个,让我每 15 分钟阅读一次。
我试过以下代码:
data = pd.read_excel('file.xlsx')
data = data.resample('15T', on='Datetime').sum()
data.to_excel('new_file.xlsx')
显然,这是每 15 分钟给我一次读数,但它(显然)是对每 15 分钟时间段的值求和。我不想要这个...我只想删除 0 和 15、15 和 29 等之间的值。
有任何想法吗?
解决方案
index = pd.date_range('1/1/2000', periods=9, freq='T')
series = pd.Series(range(9), index=index)
series.resample('3T').interpolate()
其中 interpolate 将让您猜测缺少 15 分钟数据项的位置
所以在你的例子中,它会是
data = pd.read_excel('file.xlsx')
data = data.resample('15T', on='Datetime').interpolate()
data.to_excel('new_file.xlsx')
推荐阅读
- python - 如何在使用 df.iterrows() 时使用 pandas.Series.str?
- storybook - 如何在 Storybook 中使用 redux-toolkit?
- javascript - 如何使用 jQuery 和 Ajax 获取动态和多更新 id 的值
- wordpress - 修复/隐藏 WordPress 中基于路径的漏洞
- mysql - 有人可以解释一下这个 sql 查询是如何工作的。按部分排序
- r - 如何在 R 中为分类模型编写自定义预测函数?
- python - 我如何修复 TypeError:当我运行它时,我的代码中 main.py 的第 4 行预期有一个字符缓冲区对象
- php - 如何在 wordpress 类别页面上动态添加活动类
- go - 有没有办法定义自定义 Go 模板操作
- git - git如何忽略某个目录中的所有文件和子目录,但有一些例外?