pandas - 我们使用 Spark 是因为它更快还是因为它可以处理大量数据？

我最近试图将一些纯 python 代码转换为 PySpark 以处理一些大型数据集。使用我的小型测试数据集，我注意到 PySpark 版本实际上比纯 python+pandas 数据帧慢。我读了一些评论，这似乎是意料之中的。

所以现在我有一个普遍的问题：我们是否使用 Spark，因为它“更快”（当 pandas 数据帧可以放入主内存时似乎不是这种情况）？还是因为它能够以分布式方式处理大量数据，否则将无法放入内存？

标签： pandasapache-sparkpyspark