apache-spark - 在谈论 Hadoop、Spark 和大数据时,人们所说的“中间结果”是什么意思?
问题描述
我正在尝试学习更多关于大数据的知识,尤其是在使用 Hadoop 和 Spark 方面。但是,我一直看到“中间结果”这个词,我不太确定它指的是什么。
例如,我读到“Hadoop 将中间结果写入计算机的存储磁盘,而 Spark 则尽可能将这些相同的结果保存在内存中。” 我假设这是指 Map Reduce 之后的结果,但我不太确定。
有人可以更详细地了解什么是“中间结果”以及它们在 Spark 和 Hadoop 之间的差异吗?
解决方案
在map阶段和reduce阶段之间,对正在处理的数据进行了shuffle和sort操作,是整个操作的中间环节
推荐阅读
- nginx - 在 Nginx 入口(kubernetes)中使用 X-Accel-Redirect
- sql - 不在内部连接功能中的地方
- python - Pandas:按值列表对列进行排序,类似于 SELECT * FROM df WHERE ORDER BY FIELD(id,...)
- laravel - 我在路线中没有有效的 laravel 分页网址
- excel - Excel查找日期之间的平均值
- html - 卡片轮播按钮正在触发其他轮播卡片按钮
- node.js - MongoDB按聚合查询分组
- cron - 可变 cronjob 频率
- fabricjs - 如何为图像添加边框为多边形/圆形
- python - 如何使用 python 将 xml 元素的所有值放入单个字典中?