python - 为时间序列拆分 Pandas 数据框
问题描述
我目前有一个 CSV,其中包含很多行(大约 200k),每行有很多列。我基本上想要一个时间序列训练和测试数据拆分。我的数据集中有许多独特的项目,我希望每个项目的前 80%(按时间顺序)在训练数据中。我为此编写了以下代码
import pandas as pd
df = pd.read_csv('Data.csv')
df['Date'] = pd.to_datetime(df['Date'])
test = pd.DataFrame()
train = pd.DataFrame()
itemids = df.itemid.unique()
for i in itemids:
df2 = df.loc[df['itemid'] == i]
df2 = df2.sort_values(by='Date',ascending=True)
trainvals = df2[:int(len(df2)*0.8)]
testvals = df2[int(len(df2)*0.8):]
train.append(trainvals)
test.append(testvals)
似乎 trainvals 和 testvals 被正确填充,但它们没有被添加到测试和训练中。我是不是把它们加错了?
解决方案
您的直接问题不是在 for 循环中重新分配:
train = train.append(trainvals)
test = test.append(testvals)
但是,在循环中增长像数据帧这样的广泛对象会变得内存效率低下。相反,考虑groupby
通过列表理解迭代构建包含测试和训练拆分的字典列表。然后调用pd.concat
将每个集合绑定在一起。使用定义的方法来组织处理。
def split_dfs(df):
df = df.sort_values(by='Date')
trainvals = df[:int(len(df)*0.8)]
testvals = df[int(len(df)*0.8):]
return {'train': trainvals, 'test': testvals}
dfs = [split_dfs(df) for g,df in df.groupby['itemid']]
train_df = pd.concat([x['train'] for x in dfs])
test_df = pd.concat(x['test'] for x in dfs])
推荐阅读
- javascript - 有没有办法提取 csv 文件并将其转换为矢量图/值?
- android - 带有喷气背包导航的底部导航视图?
- netlogo - 最后,如何在文件中打印所有剩余海龟的 xcor 和 ycor?
- postgresql - PostGIS:两个相等的几何图形不相等?
- python - 我收到段错误是 Python 的解释器错误吗?
- r - 在 R 中保留 sankeyNetwork (networkD3) 的自定义节点放置
- javascript - 如何访问由 AJAX 响应返回到模板的查询集 - Django
- matlab - 如何增加绘制的样本数量?
- c++ - 如何识别 Qt C++ 中按下的按钮?
- python - 为数据框中的永远标识符应用函数