python - Unstacked DataFrame 太大,导致 int32 溢出 - Pandas
问题描述
我有一个包含 400K + 行的销售数据集,我需要在下面执行一个数据透视,以便为订单行带来所有 SKU 的顺序,将 SKU 放在列中。我需要为所有订单制作它,因为之后我将使用这些数据创建另一个表。
但是我收到以下错误:
ValueError: Unstacked DataFrame is too big, causing int32 overflow
这是我第一次在大数据集中应用这种方法,我需要为更大的数据集扩展它。
这是我的代码。
import pandas as pd
import csv
from pandas import *
import os
import numpy as np
df1 = pd.read_csv('sales.csv')
df1 = df1.drop_duplicates()
df1.index=df1['ORDER_ID']
df3 = df1.assign(col=df1.groupby(level=0).SKU_ID.cumcount()).pivot(columns='col', values='SKU_ID').reset_index()
有一些方法可以在范围内执行它并连接结果吗?我仍然没有找到办法做到这一点。
解决方案
推荐阅读
- android - 从 Android Studio 从 github 导入外部库的问题
- r - R rbind 不同大小的表没有重复
- c# - C# (500) 内部服务器错误覆盖原始异常
- python - kivy 与 weakref 相比
- javascript - NodeList 有 3 个元素,但表现得像它有 2 个元素
- javascript - 文本框宽度操作 - 不适用于移动设备
- php - PHP 执行时间:如何使用 symfony 系统测量
- android - 科尔多瓦构建 minsdkversion 错误
- android - React Native + Android:为什么我会收到此消息“:app:processDebugResources FAILED”以及如何解决?
- wordpress - 将子文件夹重定向到 WordPress 中的新文件夹