python - 处理许多小型相似数据集的问题
问题描述
我有一个数据集,其中包含某些连锁店中产品的历史销售情况。看起来像:
date | customer | store | warehouse | product | volume, units
2000-01-01 customer1 store1 warehouse1 product1 10
2000-01-02 customer1 store1 warehouse1 product1 6
...
我想对数据集进行预处理,并将每个键(客户、商店、仓库和产品的唯一组合)作为单独的数据集使用,因为过滤键、预处理和放置它需要一些计算时间回到数据集。
将密钥放入单独的数据集中可能会解决问题,但由于我有大量密钥(~200K),它看起来不像正确的方法。
我想过dask,但我还没有找到手动设置如何通过键定义存储桶的方法。所以,我想像一个单独的数据集一样处理每个键,但不想只是将它们保存到单独的文件中。有任何想法吗?
解决方案
推荐阅读
- amazon-web-services - XFS 增长不工作——没有分区的磁盘
- jquery - 粘贴事件第一次粘贴时未在列表中加载数据,但之后工作正常
- reactjs - 如何更改验证邮件中`GRAPHQL_AUTH`中的`frontend_domain`端口?
- python - 无法通过 django 中的外键关联创建记录
- reactjs - 用 jest 测试拖放(dnd-kit)
- python - Jupyter笔记本保存检查点的功能
- kotlin - 在 Kotlin 中使用无符号类型
- react-native - 尝试在模拟器上运行 react-native 项目
- python - bs4 findAll 没有从网站上的其他页面收集所有数据
- tensorflow - 我希望每次使用 keras.preprocessing 层都增强我的图像