python - 如何将多个文件读取到数据框whiteout 中获取“已终止”错误消息?
问题描述
我试图将多个 csv 文件提取到熊猫数据框中。该文件夹共有 16.6 GB,由多个 csv 文件组成。当我在一段时间后运行它时,我得到一个“Killed”错误。有没有办法解决这个问题?
代码:
def fetchFolder(folderPath):
print('Loading files...')
all_files = glob.glob(folderPath + "/*.csv")
li = []
for filename in all_files:
df = pd.read_csv(filename, index_col=None, header=0)
li.append(df)
histTrades = pd.concat(li, axis=0, ignore_index=True)
histTrades = histTrades.set_index('date')
histTrades.index = pd.to_datetime(histTrades.index, unit='ms')
return histTrades
fetchFolder(r'/run/media/kobej/B204D33B04D300F1/Work/backtra/data/BTCUSDT')
输出
Loading files...
Killed
解决方案
您在这里有 2 个选项。
选项 - 1:使用库来处理大型 csv,例如dask
. 如下所示使用它。
import dask.dataframe as dd
df = dd.read_csv(file_name.csv)
选项 -2:以“n”行的块处理数据。
#Process 5000 rows at a time
chunk_csv = pd.read_csv('fileName.csv', iterator=True, chunksize=5000)
df = pd.concat(chunk_csv, ignore_index=True)
推荐阅读
- sensors - 我怎样才能嗅探 LoRaWAN 包?
- gwt - CellTable 的事件
- c# - 使用单元格样式和格式将行插入现有表格
- typescript - 如何为使用 set 函数的组件声明类型?
- python - Python 时间算术 - 从 python 日期时间对象中删除 3 小时
- css - 在 CSS 中使用 mix-blend-mode 时如何确定文本的颜色?
- r - 绑定数据框
- node.js - 使用 jose 创建 JWK 和 JWS,但是出现错误“不支持的算法”
- docker - 在 docker 容器中运行我的 websocket-server 时出现奇怪的问题
- sql - 查询每天每秒最大订单