docker - 使用 Docker 容器设置数据科学前端的简单方法是什么？

问题描述

我想使用 Docker 容器设置数据科学前端测试环境。该平台应提供用户友好的界面，并能够管理巨大的 CSV 文件。我的第一种方法是使用 Anaconda 发行版，以利用 Python 和 Jupyter Notebooks 的灵活性。不幸的是，考虑到我的团队主要使用 Python 的数据科学库（例如 Pandas），这个解决方案在处理巨大的 CSV 时太慢了。我考虑使用像 Hue 这样的前端迁移到 HDFS，以便在导出数据之前使用 SQL 处理数据并使用其他工具对其进行数据科学处理。但是，这种方法过于复杂（需要设置 Hadoop 和许多其他东西才能使用 Hue）。此外，据我所知，没有提供 Hadoop 的官方容器。而据我了解，

是否已经有一些东西可以作为容器使用，它提供以下内容：

可以在 web gui 中或通过简单的方式（例如 .SFTP）加载（巨大的）文件（例如 CSV）
使用类似 SQL 的工具通过 web gui 处理大数据，以创建中间数据/可视化
可以以 CSV 或其他格式导出数据
与其他数据科学工具的集成将是有益的

谢谢！

标签： dockerhadoophdfshue

Hue 要求您在现有 Hadoop 集群上启用 WebHDFS 以使用文件浏览器。

默认 Docker 映像配置为仅访问在 localhost 上运行的所有服务，但您不应在 Hue 容器中安装 Hadoop。

我个人认为 BigData Europe 容器是最可配置的。您将需要一个名称节点和数据节点容器。

然后，如果您的 HDFS 正在执行用户帐户检查，您需要在 Hue 中配置一种登录方法，该方法将通过您的 HDFS 用户名。我不相信默认设置会这样做。

可以通过使用卷挂载hue.ini配置文件来配置 Hue 容器

docker - 使用 Docker 容器设置数据科学前端的简单方法是什么？

问题描述

解决方案

推荐阅读