首页 > 解决方案 > Unstacked DataFrame 太大,导致 int32 溢出 - Pandas

问题描述

我有一个包含 400K + 行的销售数据集,我需要在下面执行一个数据透视,以便为订单行带来所有 SKU 的顺序,将 SKU 放在列中。我需要为所有订单制作它,因为之后我将使用这些数据创建另一个表。

但是我收到以下错误:

ValueError: Unstacked DataFrame is too big, causing int32 overflow

这是我第一次在大数据集中应用这种方法,我需要为更大的数据集扩展它。

这是我的代码。

import pandas as pd
import csv
from pandas import *
import os
import numpy as np

df1 = pd.read_csv('sales.csv')
df1 = df1.drop_duplicates()

df1.index=df1['ORDER_ID']
df3 = df1.assign(col=df1.groupby(level=0).SKU_ID.cumcount()).pivot(columns='col', values='SKU_ID').reset_index()

有一些方法可以在范围内执行它并连接结果吗?我仍然没有找到办法做到这一点。

标签: pythonpandasdataframe

解决方案


推荐阅读