apache-spark - 将 Hive 存储与 Spark 集群(计算层)分离
问题描述
我们有一个场景在云环境中使用Hive的存储能力(下面是HDFS)和Spark集群的计算能力。有没有办法可以清楚地分开这两层。
设想:
- Hive 会定期获取数据(持久层)。这不能随意删除/删除。
- 随时使用 Spark 集群处理 Hive 层中的数据。但是我们不想在计算完成后让集群基础设施处于空闲状态。
因此,我们正在考虑在需要处理之前在云中创建集群,并在处理结束后立即删除 spark 集群。优势将在于节省保留集群资源的成本。
如果我们将数据加载到一个节点集群中的 Hive 上,那么我们可以读取这些数据以在 spark 集群中进行处理,而无需进行数据移动。
假设 - Hadoop 的数据节点没有使用高端配置,它们不适合在内存处理中进行 spark(CPU 低;RAM 低)。
请建议这种情况在云基础设施(GCP)中是否可能。有没有更好的方法来解决这个问题。
解决方案
推荐阅读
- networking - 如果我每秒使用 100 万个 IPv6 地址,那么用完所有地址需要多长时间?
- elasticsearch - 使用来自先前存在的索引的新映射创建新索引
- css - shadow dom 中的样式元素
- python-3.x - 使用 Scrapy 以我们想要的任何深度抓取链接到网站的所有页面
- javascript - 页面滚动到section时触发js动画
- java - Webdriver 找不到元素
- css - 如何在 JavaFx CSS 中更改滑块拇指的颜色?
- python - 将两个不同位长的大整数可逆编码为一个整数
- php - PHP:将对象添加到数组的 For 循环不会在每次计数时更改变量。它正在复制数组中的相同对象
- angular - 在Angular中->如何使用基于角色的访问权限检查用户是否具有权限,并将角色保存在数据库中