pyspark - 如果我的数据无法放入内存,请执行 EDA 并将其可视化?我的数据集大小是 200gigs
问题描述
执行探索性数据分析是任何机器学习项目的第一步,我主要使用 pandas 使用适合内存的数据集执行数据探索......但我想知道如何执行数据清理,处理丢失的数据和数据异常值,单变量图、特征如何影响标签、相关性等的密度图
Pandas 在 Python 中进行数据分析既简单又直观。但是由于系统内存有限,我发现在 Pandas 中处理多个更大的数据帧很困难。
对于大于 RAM 大小的数据集... 100 GB
我看过教程,他们使用 spark 根据规则进行过滤并生成适合内存的数据帧......最终总会有完全驻留在内存中的数据,但我想知道如何使用大数据集并执行探索性数据分析
另一个挑战是可视化大数据以进行探索性数据分析......如果它适合内存,则使用 seaborn 或 matplotlib 等软件包很容易做到,但如何为大数据执行它
解决方案
提出一些具体的东西:
通常,您会希望通过聚合、采样等方式将数据减少到足够小以使直接可视化有意义
存在一些用于直接处理大于内存 (Dask) 数据以创建视觉效果的工具。一个很好的链接是: http: //pyviz.org/tutorial/10_Working_with_Large_Datasets.html
推荐阅读
- javascript - 将函数转换为动态 selectBoxes,它可以工作一次、两次或从不工作。反应
- python - 如何将 PDF 页面调整为自定义大小?
- javascript - Fabric js - 图像和文本框未在 IOS 纵向模式下显示
- java - `RUN ./gradlew build -x test` 命令错误
- python - Discord Bot 状态,如何“观看 %100% 会员”?
- java - 如何结合 hql 检查为 null + hql if else 条件
- azure-devops - Azure 管道 yml:发布还是文件复制?
- json - 在 Temporal.TIMESTAMP 中需要帮助
- apache-kafka - 当消费者与领导者的连接失败时,Kafka 从副本中读取
- react-native - 在本机反应中将图像编码为 WebP