首页 > 解决方案 > 在谈论 Hadoop、Spark 和大数据时,人们所说的“中间结果”是什么意思?

问题描述

我正在尝试学习更多关于大数据的知识,尤其是在使用 Hadoop 和 Spark 方面。但是,我一直看到“中间结果”这个词,我不太确定它指的是什么。

例如,我读到“Hadoop 将中间结果写入计算机的存储磁盘,而 Spark 则尽可能将这些相同的结果保存在内存中。” 我假设这是指 Map Reduce 之后的结果,但我不太确定。

有人可以更详细地了解什么是“中间结果”以及它们在 Spark 和 Hadoop 之间的差异吗?

标签: apache-sparkhadoopmapreduce

解决方案


在map阶段和reduce阶段之间,对正在处理的数据进行了shuffle和sort操作,是整个操作的中间环节


推荐阅读