docker - 使用 Docker 容器设置数据科学前端的简单方法是什么?
问题描述
我想使用 Docker 容器设置数据科学前端测试环境。该平台应提供用户友好的界面,并能够管理巨大的 CSV 文件。我的第一种方法是使用 Anaconda 发行版,以利用 Python 和 Jupyter Notebooks 的灵活性。不幸的是,考虑到我的团队主要使用 Python 的数据科学库(例如 Pandas),这个解决方案在处理巨大的 CSV 时太慢了。我考虑使用像 Hue 这样的前端迁移到 HDFS,以便在导出数据之前使用 SQL 处理数据并使用其他工具对其进行数据科学处理。但是,这种方法过于复杂(需要设置 Hadoop 和许多其他东西才能使用 Hue)。此外,据我所知,没有提供 Hadoop 的官方容器。而据我了解,
是否已经有一些东西可以作为容器使用,它提供以下内容:
- 可以在 web gui 中或通过简单的方式(例如 .SFTP)加载(巨大的)文件(例如 CSV)
- 使用类似 SQL 的工具通过 web gui 处理大数据,以创建中间数据/可视化
- 可以以 CSV 或其他格式导出数据
- 与其他数据科学工具的集成将是有益的
谢谢!
解决方案
Hue 要求您在现有 Hadoop 集群上启用 WebHDFS 以使用文件浏览器。
默认 Docker 映像配置为仅访问在 localhost 上运行的所有服务,但您不应在 Hue 容器中安装 Hadoop。
我个人认为 BigData Europe 容器是最可配置的。您将需要一个名称节点和数据节点容器。
然后,如果您的 HDFS 正在执行用户帐户检查,您需要在 Hue 中配置一种登录方法,该方法将通过您的 HDFS 用户名。我不相信默认设置会这样做。
可以通过使用卷挂载hue.ini
配置文件来配置 Hue 容器
推荐阅读
- model - Magento 2 在关闭模式窗口时阻止页面滚动回顶部
- css - File Watcher 生成 .css 文件但不刷新浏览器也不应用 CSS 代码
- caching - 对于大量数据,缓存是否值得?
- python - 表达式中 a[:] 和 a 的区别
- c# - 如何获取源文件的路径?
- solr - Sitecore 7.2 - Solr 4 facet 搜索建议 - 搜索词中没有连字符的结果
- python-3.x - 自动发送电子邮件
- javascript - 如何通过 javascript / jquery 从服务器获取电子邮件
- vue.js - Vuetify 指令不遵循我的断点
- algorithm - 在画布上展开对象以最小化重叠