python - 在 pandas 中加入 5 个 .rpt 文件
问题描述
我是数据科学的新手,正在从事我的第一个项目。我有 5 个包含大约 6GB 数据的文件,我正在对数据进行左外连接,我看到正在生成大约 1680 GB 的数据。
我想我的加入和熊猫有问题。
```
import pandas as pd
import numpy as np
a = pd.read_table("a.rpt")
b = pd.read_table("b.rpt")
c = pd.read_table("c.rpt")
d = pd.read_table("d.rpt")
e = pd.read_table("e.rpt")
import os
folderPath = r'/Users/sahithi/Desktop/data'
if not os.path.exists(folderPath):
os.makedirs(folderPath)
uniqueIds=b.WEIGHT.unique()
for id in uniqueIds:
Record = b.loc[dx['WEIGHT'] == id]
path = folderPath+"/"+str(id)+".csv"
Record.to_csv(path)
mc = pd.merge(Record, c, on = 'NAME', how='left')
ma = pd.merge(mc, a, on = 'NAME', how='left')
md = pd.merge(ma, d, on = 'NAME', how='left')
me = pd.merge(md, e, on = 'NAME', how='left')
me.to_csv(path)
```
解决方案
推荐阅读
- vb.net - 在具有唯一条件的数据表中查找第一行
- excel - 将具有定义名称的列剪切并粘贴到新工作表的最佳方法是什么,为什么我的代码不起作用?
- python - 如何获取子类的文件名?
- angular - 使用 primeNG turbo 表进行两级行扩展
- puppet - puppet 模块代码中 puppet hiera() 和 lookup() 的区别
- rxjs - RxJS - 连接并合并两个可观察对象
- function - Rust 中的函数原型是什么?
- c# - 正则表达式至少需要 6 位数字,但数字可以在任何地方
- javascript - 如何使用 JavaScript 中的 JSON 数组中的数据为 chartJS 图形创建自定义工具提示?
- javascript - Parsley.js 中关于 data-parsley-`constraint`-message 的说明