首页 > 解决方案 > 处理许多小型相似数据集的问题

问题描述

我有一个数据集,其中包含某些连锁店中产品的历史销售情况。看起来像:

date       | customer | store | warehouse | product | volume, units
2000-01-01   customer1  store1  warehouse1  product1   10
2000-01-02   customer1  store1  warehouse1  product1   6
...

我想对数据集进行预处理,并将每个键(客户、商店、仓库和产品的唯一组合)作为单独的数据集使用,因为过滤键、预处理和放置它需要一些计算时间回到数据集。

将密钥放入单独的数据集中可能会解决问题,但由于我有大量密钥(~200K),它看起来不像正确的方法。

我想过dask,但我还没有找到手动设置如何通过键定义存储桶的方法。所以,我想像一个单独的数据集一样处理每个键,但不想只是将它们保存到单独的文件中。有任何想法吗?

标签: pythondata-structuresdata-science

解决方案


推荐阅读