python - Python Pandas 丢弃列耗尽资源 - 被杀死
问题描述
我正在尝试使用这样的 Pandas 从大型数据集中删除列...
data = pd.read_csv("dataset.csv", )
data.drop(data.columns[[0, 1, 2]], axis=1, inplace=True)
数据集的读取工作正常,但是当发生下降时,它会给出一个“被杀死”的错误,我假设这是由于缺乏资源。
是否有另一种更有效的方法来删除列?
解决方案
当您阅读 CSV时,您可以避免首先加载它们。这可以通过以下usecols
参数来完成pd.read_csv
:
data = pd.read_csv("dataset.csv", usecols=[3, 4, 5])
usecols:类列表或可调用,可选返回列的子集。如果类似列表,则所有元素必须是位置的(即文档列的整数索引)或与用户在名称中提供的列名或从文档标题行推断的列名相对应的字符串。例如,一个有效的类似列表的 usecols 参数将是 [0, 1, 2] 或 ['foo', 'bar', 'baz']。
推荐阅读
- java - 在 Java Web 应用程序中将 avro 文件转换为 csv
- c# - 如何在 wpf 中使用棱镜打开新的模态对话框
- r - 如果时间过长,如何使用 withTimeout 函数中断表达式
- java - 已经为此响应调用了 Spring MVC getWriter() - 在来自 Angular 应用程序的 GET 请求中。
- android - 处理片段中的 Payumoney 响应
- reactjs - React Native 全局后台处理
- apache-spark - 用表达式按计数分组
- php - 解决 instagram 私有 api 所需的挑战
- json - 带有json字符串的tqdm进度条卡住了
- solr - 索引 nutch 数据时出现 Solr 重复数据删除错误