amazon-web-services - AWS g4dn.4xlarge 实例中的驱动程序空间不足

问题描述

前提：我在使用 Amazon AWS 或 Linux 分区方面有点新手。

所以，我需要在一个 g4dn.4xlarge 实例（带有单片 Nvidia T4 GPU 的实例）上训练一个 Tensorflow 2.0 深度学习模型。设置进行得很顺利，机器已正确初始化。正如我在我的机器配置中看到的，我有：

8GB 根文件夹；
200GB 存储空间（我可以使用本指南在启动时安装https://devopscube.com/mount-ebs-volume-ec2-instance/#:~:text=Step%201%3A%20Head%20over%20to ,text%20box%20as%20shown%20below )

这是结果lsblk：

NAME        MAJ:MIN RM   SIZE RO TYPE MOUNTPOINT
loop0         7:0    0  33.3M  1 loop /snap/amazon-ssm-agent/3552
loop1         7:1    0  32.3M  1 loop /snap/snapd/11588
loop2         7:2    0  70.4M  1 loop /snap/lxd/19647
loop3         7:3    0  55.5M  1 loop /snap/core18/1997
loop4         7:4    0  55.4M  1 loop /snap/core18/2066
nvme1n1     259:0    0 209.6G  0 disk /newvolume
nvme0n1     259:1    0     8G  0 disk
└─nvme0n1p1 259:2    0     8G  0 part /

问题：我正在按照本指南https://medium.com/quantrium-tech/installing-tensorflow-2-with-nvidia-gpu-on-google-cloud-instance-a8dde3746f23安装必要的驱动程序以便能够将 GPU 与 tensorflow 一起使用，但我遇到了“设备上没有剩余空间”的问题，因为所需的所有包都超过了我可用的空间（8 GB）。

我尝试过的：我尝试在已安装的磁盘（/newvolume）上安装驱动程序，但无论如何它们都会进入根目录（可能这是愚蠢的做法）。我尝试将两个磁盘与一些粗略的指南合并，但没有成功或进展。

问题：有什么方法可以合并两个分区以拥有 200GB 以上的 root，这样我就可以安装必要的驱动程序而不会出现空间问题？或者还有其他解决方法吗？

我的目标不是通过配置另一个具有更多空间的实例来扩展根文件夹，而是利用 200GB 磁盘（nvme1n1）。

非常感谢！

标签： amazon-web-servicestensorflowubuntunvidiapartition

amazon-web-services - AWS g4dn.4xlarge 实例中的驱动程序空间不足

问题描述

解决方案

推荐阅读