python - 拆分熊猫数据框
问题描述
我有一个 A 公司电子消费的示例数据框,如下所示
年月 | 公司 | 千瓦时 |
---|---|---|
2017-01 | 一种 | 100 |
2018-02 | 一种 | 110 |
2019-01 | 一种 | 90 |
2019-02 | 一种 | 105 |
2020-01 | 一种 | 117 |
2020-02 | 一种 | 120 |
我想删除 2020 年的数据并将剩余的数据框分成两组:
- 训练数据集包含 2019 年之前的记录
- 测试数据集仅包含 2019 条记录
解决方案
Series.str.split
与Series.astype
,Series.eq
和一起使用Series.lt
:
In [358]: df1 = df[df['year-month'].str.split('-').str[0].astype(int).lt(2019)]
In [359]: df2 = df[df['year-month'].str.split('-').str[0].astype(int).eq(2019)]
In [360]: df1
Out[360]:
year-month company GWh
0 2017-01 A 100
1 2018-02 A 110
In [361]: df2
Out[361]:
year-month company GWh
2 2019-01 A 90
3 2019-02 A 105
推荐阅读
- python - 如何将熊猫数据框写入现有的 xlsx 文件?
- macos - 开发板 NodeMCU 1.0 (ESP-12E Module) 编译时出错(读取 10 次)
- javascript - Redux-persist for reactJS 给出错误:Firefox 78.0.2 中的 noop 存储
- javascript - Angular html中的Highcharts
- vue.js - 使用 yarn install 时 Nuxt/Vuetify 的原色是黑白(附截图)
- python - 从字典键及其值生成元组
- c# - Add-Migration MyModel 提供空的 Up() Down() 方法
- vue.js - Vue beforeEach() 没有重定向到所需的页面
- excel - 不同货币的 Excel 账单支付清单
- node.js - 在 Node JS 中包含 Amazon RDS 终端节点错误:标识符或关键字不能紧跟数字文字