python - 在 apache spark 中使用 seaborn
问题描述
在具有 5000 万个案例的 csv 数据帧上使用 pandas 和 seaborn 来制作一些分散矩阵,我注意到处理时间真的很长,为了方便我df.sample()
对部分数据进行了处理,这减少了处理时间。考虑到apache spark
我想问是否有可能应用它的速度来处理所有 5000 万个数据以创建:scatter matrix
、、scatter plot
等pairgrid
。seaborn
在获取有关此主题的信息后,我发现要做到这一点非常困难。
解决方案
推荐阅读
- javascript - 如何在 ReactJS 中关闭弹出窗口之前等待函数?
- python-3.x - Python 3 matplotlib 添加具有多个比例轴的水印
- python - 在 python GUI 中显示打印输出?
- hadoop - 在伪分布式模式下启动 HBase 失败抛出“Failed construction RegionServer”
- javascript - ServiceNow - 列表仅使用最后一个值更新
- javascript - 如何在删除包含 discord.js 的嵌入之前设置延迟?
- java - Spring Boot addObject 无法正常工作
- python - 我不知道如何在 PyCharm 中安装熊猫
- assembly - 在 x86_64 中,如果条件为假,32 位 cmov 是否会清除最高位?
- php - Laravel - SQLSTATE [23000]:完整性约束违规:1062 键“posts_user_id_unique”的重复条目“1”