python-3.x - 有没有一种pythonic方法可以将日期时间上的数据帧与具有不规则日期时间戳的数据对合并
问题描述
我有几个数据系列,其中每个数据点都保存有时间戳,精度为 [ms]。我想将这些系列合并到一个时间线上,所有时间戳的采样精度应为 [s] 最后应该有一个 pd ,其中第一列是日期时间,具有来自系列的所有不同时间戳。所有其他列在该日期时间合并。
我的代码正在运行,但由于内存问题而无法处理大数据。
数据如下所示:
a_data; a_Timestamp; b_data; b_Timestamp; c_data ; c_Timestamp
1; 2019-07-24 12:00:00.123; 2 ; 2019-07-24 12:00:00.234; 3 ; 2019-07-24 12:00:00.345;
2; 2019-07-24 12:00:03.123; 3 ; 2019-07-24 12:00:02.234; 4 ; 2019-07-24 12:00:03.645;
我的代码如下:
import numpy as np
import pandas as pd
import datetime as dt
def prepareData(df):
dfm = None
df = df.dropna(axis='columns',how='all')
df = df.sort_index()
for col in df:
dt = None
if not "Timestamp" in col:
series = pd.DataFrame({'DateTime' : pd.to_datetime(df[col + '_Timestamp']).astype('datetime64[s]'),col : df[col]})
if mergedFrame is not None:
dfm = dfm.merge(series, on='DateTime', how ='outer').sort_values('DateTime')
else:
dfm = series
dfm = dfm.loc[~dfm.DateTime.duplicated(keep='first')]
dfm = dfm.sort_index()
dfm = dfm.fillna(method='ffill')
dfm = dfm.fillna(method='bfill')
dfm = dfm.fillna(0)
return dfm.reset_index()
df = pd.read_csv('file.csv', sep = ";", na_values="n/a" ,low_memory=False)
prepareData(df).to_csv( 'file_sampled.csv', sep = ';')
结果应该是
DateTime; a_data; b_data ; c_data
2019-07-24 12:00:00; 1;2;3
2019-07-24 12:00:02; 1;3;3
2019-07-24 12:00:03; 2;3;3
2019-07-24 12:00:04; 2;3;4
我得到了这个结果,但它占用的内存对我的电脑来说太多了。我想有更好的方法来做到这一点。
解决方案
首先,我们选择每个数据和每个时间戳列并将它们并排放置:
x = pd.concat([pd.melt(df.iloc[:,::2], value_name='data'), pd.melt(df.iloc[:,1::2], value_name='DateTime').iloc[:,-1]], axis=1)
将日期时间字符串转换为 DateTime,四舍五入为整秒并设置为索引:
x['DateTime'] = pd.to_datetime(x.DateTime).dt.round('s')
x = x.set_index('DateTime')
最后我们旋转数据:
x.pivot(columns='variable', values='data')
结果:
variable a_data b_data c_data
DateTime
2019-07-24 12:00:00 1.0 2.0 3.0
2019-07-24 12:00:02 NaN 3.0 NaN
2019-07-24 12:00:03 2.0 NaN NaN
2019-07-24 12:00:04 NaN NaN 4.0
推荐阅读
- oracle - .NETCore Oracle ManagedDataAccess 客户端:无法读取 BLOB(TTC 错误)
- python - AttributeError:“会话”对象没有属性“merge_environment_settings”
- javascript - 如何使用 uglifyjs-webpack 将源文件 (Javascript) 缩小为缩小文件
- oracle - Oracle 段空间
- mysql - 更新 sql 以仅在日期时间中更改时间
- r - 用行替换缺失值意味着如果每行恰好有 N 个缺失值
- sql - 计算多个聚合值并在 1 列中计算它们的最终总和
- javascript - 显示文本框多行值
- java - ImageView 位图偏移校正
- python - 如何对句子中的一个特定单词进行分类?