首页 > 解决方案 > 从拆分洗牌的 CSV 文件创建数据框以匹配原始 CSV 文件,然后计算要匹配的总和

问题描述

我有两个 CSV 文件已从原始 CSV 文件中拆分出来,并且行已被打乱。我想将两个拆分文件合并为一个以匹配原始文件,以便我可以执行计算。问题是,当我从原始计算 sales_amount 列的总和时,它与两个合并文件的 sales_amount 列的总和不匹配。我猜合并的 CSV 文件中的行与原始文件不匹配,因此总和会出错吗?我认为尽管使用 Pandas 的 groupby 功能并不重要。

原始 CSV 包含以下列:

拆分的 CSV 文件具有以下列:

......行洗牌。

下面是我认为会合并两个文件并创建完美匹配的内容,但由于行被打乱,我似乎无法从原始 CSV 计算出正确匹配的销售额。

df0 = pd.read_csv("sales_original.csv")
df1 = pd.read_csv("sales_split_1.csv")
df2 = pd.read_csv("sales_split_2.csv")
df2_join = df2[["pencil_brand", "sales_amount"]]
df3 = df1.join(df2_join)

当我输入命令

df0.groupby("pencil_model").sum()
df3.groupby("pencil_model").sum()

对于每种铅笔模型,我得到完全不同的总和。

如果我遗漏了什么,我深表歉意。这是我第一次在这里发帖。我可以尽力复制代码。我也是 Python 的新手。

标签: pythonpandasdataframemerge

解决方案


推荐阅读