apache-spark - 用于环回存储的用户级库(HPC 中的 Spark 应用程序没有环回设备)
问题描述
Cray 建议使用环回设备在具有 Lustre 文件系统的 HPC 集群上运行 Spark [1]。问题是大多数 HPC 集群不为其用户提供对环回设备的访问。所以我想知道是否有一个库可以在 Lustre 广告上只打开一个大文件,让我们将该大文件视为一个文件系统,然后我们可以利用并行文件访问该文件。
这样,我们可以在拥有适当分区和每个分区一个文件的同时拥有并行 IO。搜索没有显示任何东西。
[1] http://wiki.lustre.org/images/f/fb/LUG2016D2_Scaling-Apache-Spark-On-Lustre_Chaimov.pdf
解决方案
这是否可能在很大程度上取决于您的应用程序。可以创建例如。作为普通用户使用的普通文件中的 ext4 文件系统映像,mke2fs
可以使用链接到您的应用程序(可能是单线程)的 libext2fs 或通过用户空间中的 fuse2fs 访问它。可能 fuse2fs 仍然需要 root 权限才能设置,但我并不肯定,但之后它会像普通文件系统一样运行,并且不需要块设备。
推荐阅读
- reactjs - 建立一个反应项目
- django-rest-framework - 在 djangorestframework 中不请求任何页面时禁用分页
- gulp - 从保留文件结构的文件夹创建一个 zip,包括父文件夹(和单个文件)
- python - 如何在 PyTorch 中的许多 conv 层之后指定 flatten 层输入大小?
- wpf - 更改 XAML 中选定行的颜色
- openstack - Terraform openstack forces new resource
- oracle - 根据日期之间的小时差更新表中的记录
- android - Angular 1.6 的 iOS 和 Android Webview 问题
- android - 在 Android 中为 fopen 更改文件的权限
- android - Need example of Robolectric with Mockito to write the unit test case