首页 > 解决方案 > 如果我的数据无法放入内存,请执行 EDA 并将其可视化?我的数据集大小是 200gigs

问题描述

执行探索性数据分析是任何机器学习项目的第一步,我主要使用 pandas 使用适合内存的数据集执行数据探索......但我想知道如何执行数据清理,处理丢失的数据和数据异常值,单变量图、特征如何影响标签、相关性等的密度图

Pandas 在 Python 中进行数据分析既简单又直观。但是由于系统内存有限,我发现在 Pandas 中处理多个更大的数据帧很困难。

对于大于 RAM 大小的数据集... 100 GB

我看过教程,他们使用 spark 根据规则进行过滤并生成适合内存的数据帧......最终总会有完全驻留在内存中的数据,但我想知道如何使用大数据集并执行探索性数据分析

另一个挑战是可视化大数据以进行探索性数据分析......如果它适合内存,则使用 seaborn 或 matplotlib 等软件包很容易做到,但如何为大数据执行它

标签: pysparkdata-visualizationplotlydaskholoviews

解决方案


提出一些具体的东西:

  • 通常,您会希望通过聚合、采样等方式将数据减少到足够小以使直接可视化有意义

  • 存在一些用于直接处理大于内存 (Dask) 数据以创建视觉效果的工具。一个很好的链接是: http: //pyviz.org/tutorial/10_Working_with_Large_Datasets.html


推荐阅读