首页 > 解决方案 > 在 Python 中创建一个非常大的缺席/存在 SPARSEE 矩阵

问题描述

有没有什么神奇的方法可以在 python 中创建一个巨大的缺席存在矩阵?由于内存要求,pd.crosstab 和 pd.pivot_table 失败。

我有一个像这样的非常大的数据集:

事物
彼得 自行车
彼得
珍妮 自行车
珍妮 飞机

并需要这个:

自行车 飞机
彼得 1 1 0
珍妮 1 0 1

请注意,矩阵相当稀疏。它包含很多零。

标签: python

解决方案


数据科学中使用的计算机有时具有高得离谱的 RAM(我想我以前见过 1tb 的计算机......)

如果您没有那么多 RAM,那么我认为解决此问题的唯一方法是利用硬盘驱动器...

我会说,处理数据,将其作为结构化数据写入硬盘驱动器,并在读取时循环,一次说 50mb 以检查名称是否已添加到文件中,并对其进行修改。


推荐阅读