python - Amazon EC2 实例上的 TensorFlow 导入错误
问题描述
我正在尝试在我的 p3.16xlarge Amazon EC2 实例中运行卷积神经网络。我使用 pip install 为我的程序安装了 tensorflow 和所有其他必需的库,但是,当我运行这个程序时,我收到了错误消息:
“ImportError:libcublas.so.9.0:无法打开共享对象文件:没有这样的文件或目录”“无法加载本机 TensorFlow 运行时。”
这些是我的实例详细信息: Python 2.7.14(默认,2018 年 5 月 2 日,18:31:34) Amazon Linux AMI 2018.03.0.20180811 x86_64 HVM GP2
研究这个问题后,我似乎需要 CUDA 9.0,而大多数 linux 机器使用 CUDA 9.1。我该如何降级 CUDA/更改/配置我的实例以使 tensorflow 运行?我不知道该怎么做。
谢谢
解决方案
许多客户发现深度学习 AMI 是在 EC2 上运行工作负载的最简单方法。它预装了所有流行的库。
https://aws.amazon.com/machine-learning/amis/
或者,您可以考虑使用 Amazon SageMaker 将您的数据存储在 S3 中,在完全托管的基础设施上进行训练和部署。比管理他们自己的 EC2 实例要容易得多:)
https://aws.amazon.com/sagemaker/
我很想听听您的反馈并回答任何问题。
推荐阅读
- node.js - 有限制的循环赛_nodejs
- java - 我想修改我的代码,以便在不满足给定条件时不设置用户在字段中输入的值
- php - Php 7.0 Armbian,我如何修复 Mysqli?
- java - 有没有关于这个问题的 cuda 支持的 dl4j 解决方案?
- zipkin - Spring-Cloud-Zipkin 运行错误关于“线程“主”java.lang.ClassNotFoundException 中的异常”
- javascript - 如何为深色/浅色主题提供两个版本的图像?
- c++ - 三维数组中的 C/C++ DWORD 到 BYTE 和 BYTE 到 DWORD 转换
- sql - Postgres 获取自引用表的根
- c# - 当 Dictionary 将抽象类作为值时,如何使用子类方法?
- html - Bootstrap 卡片组,每张卡片的宽度固定,并带有水平滚动条