apache-spark - 用于环回存储的用户级库（HPC 中的 Spark 应用程序没有环回设备）

问题描述

Cray 建议使用环回设备在具有 Lustre 文件系统的 HPC 集群上运行 Spark [1]。问题是大多数 HPC 集群不为其用户提供对环回设备的访问。所以我想知道是否有一个库可以在 Lustre 广告上只打开一个大文件，让我们将该大文件视为一个文件系统，然后我们可以利用并行文件访问该文件。

这样，我们可以在拥有适当分区和每个分区一个文件的同时拥有并行 IO。搜索没有显示任何东西。

[1] http://wiki.lustre.org/images/f/fb/LUG2016D2_Scaling-Apache-Spark-On-Lustre_Chaimov.pdf

标签： apache-sparkhpclustre

这是否可能在很大程度上取决于您的应用程序。可以创建例如。作为普通用户使用的普通文件中的 ext4 文件系统映像，mke2fs可以使用链接到您的应用程序（可能是单线程）的 libext2fs 或通过用户空间中的 fuse2fs 访问它。可能 fuse2fs 仍然需要 root 权限才能设置，但我并不肯定，但之后它会像普通文件系统一样运行，并且不需要块设备。

apache-spark - 用于环回存储的用户级库（HPC 中的 Spark 应用程序没有环回设备）

问题描述

解决方案

推荐阅读