首页 > 解决方案 > 在 Amazon sagemaker 上安装 docker 后守护程序未启动

问题描述

我正在尝试在 Amazon sagemaker 上训练对象检测模型,并且我想使用基于 pytorch 的名为 mmdetection 的框架。我了解到,为了在那里使用它,我需要创建一个自定义 docker 环境。

我在 sagemaker 上使用的内核是“Python 3 (PyTorch 1.6 Python 3.6 GPU Optimized)”,它运行的是 Ubuntu。在上面下载 docker 对我来说已经够难了,但我仍然无法继续。每当我想实际使用 docker 时(我想使用命令“!docker pull csuhan/s2anet:latest”来拉一个已经存在的,我在非 sagemaker ubuntu 上测试过并且它有效)它告诉我:“无法连接到unix:///var/run/docker.sock 上的 Docker 守护进程。docker 守护进程正在运行吗?

真正的问题是,每当我尝试在笔记本中运行“!dockerd”来启动守护进程时,它都会显示以下长消息:“无法启动守护进程:初始化网络控制器时出错:获取控制器实例时出错:无法创建 NAT 链DOCKER: iptables failed: iptables -t nat -N DOCKER: iptables v1.6.1: can't initialize iptables table `nat': Permission denied (you must be root) 也许 iptables 或你的内核需要升级。”

如果我尝试“!dockerd --iptables = false”行,我会得到结果:“无法启动守护进程:初始化网络控制器时出错:创建默认“桥”网络时出错:不允许操作”

我怀疑这可能与我正在使用的执行角色有关,但我不知道该怎么做,似乎无法在谷歌上找到针对这个特定问题的现有答案。

标签: pythondockerdaemonamazon-sagemaker

解决方案


推荐阅读