首页 > 解决方案 > 我们可以在单节点机器上并行运行多个拆分吗?

问题描述

我在单节点机器上使用 hadoop。当我运行一个大小为 1GB 且拆分大小为 128MB 的大文件时。因此,它以 8 个拆分运行文件,但这些拆分按顺序运行意味着一个拆分在完成另一个拆分后开始执行。我们是否必须设置任何属性值才能在单节点机器上并行运行拆分。

标签: hadoop

解决方案


Hadoop提供了一个分布式处理框架(batch),即MapReduce并行执行任务。但是并行度取决于集群中的机器数量。也可以控制并行度,input split size但由于您有独立设置,因此无法实现并行度。


推荐阅读