apache-spark - Apache Spark 与 MapReduce
问题描述
我一直在寻找 Spark 和 MapReduce 之间的区别,我真正发现的是 Spark 在内存和磁盘上运行,这使得它明显更快。
我还读到 MapReduce 更适合真正庞大的数据集,这仅仅是因为您可以将更多的数据加载到磁盘上而不是内存中吗?
但据推测,使用 Spark,无论如何您都在内存和磁盘之间移动数据,因此如果内存空间不足,您可以将一些数据移回磁盘,然后引入新数据进行处理。
基本上,还有什么真正的理由再使用 MapReduce 吗?
解决方案
据我所知,这里是 Spark 和 Hadoop Map Reduce 的简单且罕见的解决方案:
Hadoop Map Reduce 是批处理。
在 HDFS 中的高延迟。以下是关于 Hadoop MapReduce 和 Spark 的完整说明:
http://commandstech.com/basic-difference-between-spark-and-map-reduce-with-examples/
火花:
来到 Spark 的是流式处理。
由于 RDD,延迟低。
Spark 和 Hadoop Map Reduce 用于以更少的代码处理海量数据。
推荐阅读
- javascript - 为什么使用'key'作为对象的键会导致调用object.key返回为null?
- angular - 如何在 Chrome devtools 中调试用 Typescript 编写的 webworker
- python - 我怎样才能决定我应该在 cv2.getPerspectiveTransform() 中给出的分数?
- azure - 查看 Sprint 跟踪板上的错误
- r - 使用多参数函数生成变量(使用参数值的排列)
- javascript - Firefox 扩展中的 launchWebFlow 在 oauth2 弹出窗口中关闭扩展窗口
- odoo - 创建发票和付款,然后通过 Odoo 模块中的代码链接它们
- javascript - HTML+JS/jQuery:有没有办法将元素的值附加到表单操作字符串?
- python - 通过迭代嵌套字典中的第 n 级值来创建数据框
- apache-spark - 在 PySpark 上寻找更好的性能