首页 > 解决方案 > Amazon EC2 实例上的 TensorFlow 导入错误

问题描述

我正在尝试在我的 p3.16xlarge Amazon EC2 实例中运行卷积神经网络。我使用 pip install 为我的程序安装了 tensorflow 和所有其他必需的库,但是,当我运行这个程序时,我收到了错误消息:

“ImportError:libcublas.so.9.0:无法打开共享对象文件:没有这样的文件或目录”“无法加载本机 TensorFlow 运行时。”

这些是我的实例详细信息: Python 2.7.14(默认,2018 年 5 月 2 日,18:31:34) Amazon Linux AMI 2018.03.0.20180811 x86_64 HVM GP2

研究这个问题后,我似乎需要 CUDA 9.0,而大多数 linux 机器使用 CUDA 9.1。我该如何降级 CUDA/更改/配置我的实例以使 tensorflow 运行?我不知道该怎么做。

谢谢

标签: pythonamazon-web-servicestensorflowamazon-ec2

解决方案


许多客户发现深度学习 AMI 是在 EC2 上运行工作负载的最简单方法。它预装了所有流行的库。

https://aws.amazon.com/machine-learning/amis/

或者,您可以考虑使用 Amazon SageMaker 将您的数据存储在 S3 中,在完全托管的基础设施上进行训练和部署。比管理他们自己的 EC2 实例要容易得多:)

https://aws.amazon.com/sagemaker/

我很想听听您的反馈并回答任何问题。


推荐阅读