python - 用于聚合保留截止时间的子实体的功能工具
问题描述
我尝试使用带有时间戳的功能工具来使用分销商过去的决定作为预测变量。我只有一个数据集作为输入,具有典型的二元分类问题(n 行)。有一组分销商(<
在计算每个时间戳与分配器关联的平均标签时,尊重时间戳排序非常重要,以避免信息泄漏。
以下是我对 Pandas 的处理方式:
import pandas as pd
import numpy as np
from datetime import datetime
import featuretools as ft
timestamps = ['2019-01-05-10:36:12', '2019-01-04-11:32:12', '2019-01-03-08:01:03', '2019-01-03-06:32:54',
'2019-01-01-07:30:24', '2018-12-20-04:20:25']
time = [datetime.strptime(x,'%Y-%m-%d-%H:%M:%S') for x in timestamps]
data = {'time': time,
'Distributor': ['A','B','A','B','B','B'],
'Label': [1, 0, 0, 0, 0, 1]}
# Create DataFrame
df = pd.DataFrame(data)
df = df.sort_values(['Distributor','time'])
def past70(g):
g = g.set_index('time').resample('D').last()
g['Past_average_label_per_distributor'] = g['Label'].rolling(70, 0).mean().shift(1)
return g[g.Label.notnull()]
df = df.groupby('Distributor').apply(past70)
df
现在用熊猫做这件事很乏味,因为我想使用许多原语来解决我的问题(比如我还想要每个分销商过去标签的标准偏差,还有许多其他变量 grouped_by 分销商使用时间窗口计算)
这是使用功能工具的失败尝试:
import pandas as pd
import numpy as np
from datetime import datetime
import featuretools as ft
timestamps = ['2019-01-05-10:36:12', '2019-01-04-11:32:12', '2019-01-03-08:01:03', '2019-01-03-06:32:54',
'2019-01-01-07:30:24', '2018-12-20-04:20:25']
time = [datetime.strptime(x,'%Y-%m-%d-%H:%M:%S') for x in timestamps]
data = {'time': time,
'Distributor': ['A','B','A','B','B','B'],
'Label': [1, 0, 0, 0, 0, 1]}
# Create DataFrame
df = pd.DataFrame(data)
df = df.sort_values(['Distributor','time'])
cutoff_times = pd.DataFrame({
"index": df.index,
"cutoff_time": df['time']
})
es = ft.EntitySet(id='Sales')
es.entity_from_dataframe(entity_id='Sales', dataframe=df, index='index', make_index=True, time_index='time')
es = es.normalize_entity(base_entity_id='Sales', new_entity_id='Distributors', index='Distributor')
feature_matrix, feature_defs = ft.dfs(entityset=es, target_entity='Sales',
cutoff_time=cutoff_times,
where_primitives=['mean'], features_only=False,
cutoff_time_in_index=False)
feature_matrix # not correct
任何人都会对如何实现这一目标有任何指导?在文档中似乎找不到类似的东西。然而,这在机器学习预处理中似乎很常见。
解决方案
您可以使用 DFS 中的截止时间来计算这些值。我将通过一个使用相同数据集的示例。作为参考,这是我在 Pandas 中运行代码得到的输出。
Distributor Label Past_average_label_per_distributor
Distributor time
A 2019-01-03 A 0.0 NaN
2019-01-05 A 1.0 0.000000
B 2018-12-20 B 1.0 NaN
2019-01-01 B 0.0 1.000000
2019-01-03 B 0.0 0.500000
2019-01-04 B 0.0 0.333333
首先,我们创建数据集。
import pandas as pd
import numpy as np
import featuretools as ft
data = {
'ID': [0, 1, 2, 3, 4, 5],
'Distributor': ['A', 'B', 'A', 'B', 'B', 'B'],
'Label': [1, 0, 0, 0, 0, 1],
'Time': [
'2019-01-05-10:36:12',
'2019-01-04-11:32:12',
'2019-01-03-08:01:03',
'2019-01-03-06:32:54',
'2019-01-01-07:30:24',
'2018-12-20-04:20:25',
],
}
types = {'Time': 'datetime64[ns]'}
df = pd.DataFrame(data).astype(types)
df = df.sort_values(['Distributor', 'Time'])
print(df.to_string(index=False))
Time Distributor Label ID
2019-01-03 08:01:03 A 0 2
2019-01-05 10:36:12 A 1 0
2018-12-20 04:20:25 B 1 5
2019-01-01 07:30:24 B 0 4
2019-01-03 06:32:54 B 0 3
2019-01-04 11:32:12 B 0 1
然后,我们构建实体集。
es = ft.EntitySet()
es.entity_from_dataframe(
entity_id='Sales',
dataframe=df,
time_index='Time',
index='ID',
)
es.normalize_entity(
base_entity_id='Sales',
new_entity_id='Distributors',
index='Distributor',
make_time_index=False,
)
es.add_last_time_indexes()
es.plot()
现在,我们使用截止时间生成特征矩阵。
cutoff_times = df[['Distributor', 'Time', 'Label']]
cutoff_times['Time'] = cutoff_times['Time'].dt.normalize()
fm, _ = ft.dfs(
target_entity='Distributors',
entityset=es,
trans_primitives=[],
agg_primitives=['mean', 'std'],
cutoff_time=cutoff_times,
cutoff_time_in_index=True,
)
print(fm)
MEAN(Sales.Label) STD(Sales.Label) Label
Distributor time
A 2019-01-03 NaN NaN 0
2019-01-05 0.000000 NaN 1
B 2018-12-20 NaN NaN 1
2019-01-01 1.000000 NaN 0
2019-01-03 0.500000 0.707107 0
2019-01-04 0.333333 0.577350 0
让我知道这是否有帮助。您还可以在此链接中找到有关使用截止时间的更多信息。
推荐阅读
- node.js - Lambda:无法在 s3 中流式传输和上传数据
- javascript - 猫鼬模糊搜索不适用于 updateOne
- python - 从给定索引开始的列表中数字的总和,递归
- asp.net-core - .NET Core 3.1 MapControllerRoute 导致没有区域的 url 无法正确加载
- ionic-framework - 升级到电容 3 后无法使用 livereload
- python - Django 内联表单集总是无效
- rust - 限制为 const N 时的 mem::transmute 错误
- python - 如何为 Cuda 找到正确的 libnvinfer 版本
- python - 如何检查我的机器人是否在多个同名的公会中 discord.py
- laravel - Laravel中的多对多并按关系条件选择数据