apache-spark - Spark 重新分区如何对输入文件分区起作用?
问题描述
我有两个问题:
我们可以在调用中设置
coalesce
比 HDFS 块大小更少的分区吗?例如,假设我的文件大小为 1 GB,HDFS 块大小为 128MB,我可以这样做coalesce(1)
吗?众所周知,HDFS 上的输入文件是根据块大小进行物理分割的。当我们重新分区或更改并行性时,Spark 是否会进一步拆分数据(物理上)?
解决方案
例如,假设我的文件大小为 1 GB,hdfs 块大小为 128MB。我可以合并(1)吗?
是的,您可以合并到单个文件并将其写入外部文件系统(至少使用 EMRFS)
当我们重新分区或更改并行性时,火花是否会进一步拆分数据(物理上)?
repartition
将数据分割成独立于原始输入文件的分区的分区。
推荐阅读
- matlab - 使用matlab计算矩阵内xyz值的成对距离
- selenium-ide - Selenium IDE 中未显示右键菜单
- java - 有没有办法减少页面返回的参数数量?
- python - sqlachemy 多对多:删除不起作用,删除太多
- python-3.x - CTC + BLSTM 架构在第一个 epoch 之前停止/挂起
- asp.net-core - IdentityServer4 - RequestClientCredentialsTokenAsync 返回未授权客户端
- python - 如何计算 Pearson 相关矩阵并仅保留重要值?
- mysql - MY SQL Partition by order by 和 percents
- reactjs - 如何正确重构路由器组件?
- python - 如何将 matplotlib 中的刻度格式设置为例如“1.5 x 10^4 m^2”?