首页 > 解决方案 > Hadoop(Hive)中是否有类似存储过程/作业的东西

问题描述

我在 Hive 上使用 Cloudera 5.14 Hadoop 和 PySpark。我想知道是否有可能在 Hadoop 中提供类似存储过程的东西?

我想要达到什么目的?有什么方法可以设置一些每天早上运行的工作,访问一些 Hive 表并在那里写一些东西 + 发送电子邮件。

这需要什么 - 注意我没有集群的管理员权限,但是我可以通过subprocess python module运行 shell 脚本。另外,是否有可能以某种方式从 PySpark 脚本发送电子邮件?

标签: pythonhadoophivepyspark

解决方案


Hadoop 无法自行安排作业。您可以使用Apache Oozie Workflow Scheduler for Hadoop来安排作业

使用简单cron作业执行脚本文件的另一种方法


推荐阅读