python - 从拆分洗牌的 CSV 文件创建数据框以匹配原始 CSV 文件,然后计算要匹配的总和
问题描述
我有两个 CSV 文件已从原始 CSV 文件中拆分出来,并且行已被打乱。我想将两个拆分文件合并为一个以匹配原始文件,以便我可以执行计算。问题是,当我从原始计算 sales_amount 列的总和时,它与两个合并文件的 sales_amount 列的总和不匹配。我猜合并的 CSV 文件中的行与原始文件不匹配,因此总和会出错吗?我认为尽管使用 Pandas 的 groupby 功能并不重要。
原始 CSV 包含以下列:
- 铅笔模式
- 发售日期
- 铅笔品牌
- 销售额
拆分的 CSV 文件具有以下列:
第一个文件:
- 铅笔模式
- 发售日期
第二个文件:
- 铅笔品牌
- 销售额
......行洗牌。
下面是我认为会合并两个文件并创建完美匹配的内容,但由于行被打乱,我似乎无法从原始 CSV 计算出正确匹配的销售额。
df0 = pd.read_csv("sales_original.csv")
df1 = pd.read_csv("sales_split_1.csv")
df2 = pd.read_csv("sales_split_2.csv")
df2_join = df2[["pencil_brand", "sales_amount"]]
df3 = df1.join(df2_join)
当我输入命令
df0.groupby("pencil_model").sum()
df3.groupby("pencil_model").sum()
对于每种铅笔模型,我得到完全不同的总和。
如果我遗漏了什么,我深表歉意。这是我第一次在这里发帖。我可以尽力复制代码。我也是 Python 的新手。
解决方案
推荐阅读
- c# - 在 .net core 3.0 BackgroundService 应用程序中,为什么我的配置对象在作为服务运行时为空,而不是作为控制台应用程序运行?
- sequelize.js - Sequelize 第三方模型之间的关联
- python - Django:每次更新表单时更新上下文值
- java - 图形循环故障,如何修复?
- xml - 我想从 XML 中删除 XML 标记并使用 XSL 单独发送数据
- if-statement - 为什么ArrayFormula导致空值“”注册> 0
- javascript - onClick 根据点击的内容设置 href 值
- python - 如何为 Keras 选择正确的参数
- docker - Airflow 从私有谷歌容器存储库中拉取 docker 镜像
- java - 使用 Livy 提交 Spark 作业时出错:用户没有初始化 Spark 上下文