首页 > 解决方案 > 我们使用 Spark 是因为它更快还是因为它可以处理大量数据?

问题描述

我最近试图将一些纯 python 代码转换为 PySpark 以处理一些大型数据集。使用我的小型测试数据集,我注意到 PySpark 版本实际上比纯 python+pandas 数据帧慢。我读了一些评论,这似乎是意料之中的。

所以现在我有一个普遍的问题:我们是否使用 Spark,因为它“更快”(当 pandas 数据帧可以放入主内存时似乎不是这种情况)?还是因为它能够以分布式方式处理大量数据,否则将无法放入内存?

标签: pandasapache-sparkpyspark

解决方案


推荐阅读