首页 > 解决方案 > Apache Spark 与 MapReduce

问题描述

我一直在寻找 Spark 和 MapReduce 之间的区别,我真正发现的是 Spark 在内存和磁盘上运行,这使得它明显更快。

我还读到 MapReduce 更适合真正庞大的数据集,这仅仅是因为您可以将更多的数据加载到磁盘上而不是内存中吗?

但据推测,使用 Spark,无论如何您都在内存和磁盘之间移动数据,因此如果内存空间不足,您可以将一些数据移回磁盘,然后引入新数据进行处理。

基本上,还有什么真正的理由再使用 MapReduce 吗?

标签: apache-sparkhadoopmapreduce

解决方案


据我所知,这里是 Spark 和 Hadoop Map Reduce 的简单且罕见的解决方案:

  1. Hadoop Map Reduce 是批处理。

  2. 在 HDFS 中的高延迟。以下是关于 Hadoop MapReduce 和 Spark 的完整说明:

http://commandstech.com/basic-difference-between-spark-and-map-reduce-with-examples/

火花:

  1. 来到 Spark 的是流式处理。

  2. 由于 RDD,延迟低。

Spark 和 Hadoop Map Reduce 用于以更少的代码处理海量数据。


推荐阅读