pandas - 我们使用 Spark 是因为它更快还是因为它可以处理大量数据?
问题描述
我最近试图将一些纯 python 代码转换为 PySpark 以处理一些大型数据集。使用我的小型测试数据集,我注意到 PySpark 版本实际上比纯 python+pandas 数据帧慢。我读了一些评论,这似乎是意料之中的。
所以现在我有一个普遍的问题:我们是否使用 Spark,因为它“更快”(当 pandas 数据帧可以放入主内存时似乎不是这种情况)?还是因为它能够以分布式方式处理大量数据,否则将无法放入内存?
解决方案
推荐阅读
- javascript - Javascript Onclick通过附加函数传递对象
- reactjs - 如何在更新时获得反应 noUiSlider 最小最大值?
- windows - Rstudio 无法连接到 Windows 机器上启用 SSL 的 postgresql 服务器
- asp.net-mvc - 有什么方法可以在 MVC 中的另一个页面单击后退按钮中的确切数据显示上一页
- php - 在验证期间获取 Laravel 验证中的 ErrorMessage 包
- azure-log-analytics - 使用 PowerShell 将 Azure 活动日志连接到 Log Analytics 实例
- python - scrapy 503 服务在 starturl 上不可用
- android - 通过 okhttp 上传具有概率失真的图像
- sql - 查询分组中的 Oracle SQL 条件聚合函数
- angular - 如何使用 CLI 在 Ionic 中将页面添加到 app.module.ts