python - Hadoop(Hive)中是否有类似存储过程/作业的东西
问题描述
我在 Hive 上使用 Cloudera 5.14 Hadoop 和 PySpark。我想知道是否有可能在 Hadoop 中提供类似存储过程的东西?
我想要达到什么目的?有什么方法可以设置一些每天早上运行的工作,访问一些 Hive 表并在那里写一些东西 + 发送电子邮件。
这需要什么 - 注意我没有集群的管理员权限,但是我可以通过subprocess python module运行 shell 脚本。另外,是否有可能以某种方式从 PySpark 脚本发送电子邮件?
解决方案
Hadoop 无法自行安排作业。您可以使用Apache Oozie Workflow Scheduler for Hadoop来安排作业
使用简单cron
作业执行脚本文件的另一种方法
推荐阅读
- c# - ASP.NET:除了 Web 应用程序二进制文件之外,如何发布 ocx 文件
- php - laravel 忽略返回重定向()
- javascript - Grafana 插件 - 在渲染之间清除输出
- laravel - 如何使用 laravel 对 mongodb 中的特定值进行分组,并且需要从集合中获取所有值
- android - TWA APP 中的 JS 错误:使用 Geolocation API 时出现“NoTwaFound”
- deployment - WFLYCTL0184:新的缺少/不满足的依赖项:(缺少)依赖项:[服务 jboss.deployment.unit。”
我在其中配置了 Jenkins master(server1) 和 agent(server2) 用于构建分发。我为 JAVA springboot 应用程序构建和部署创建了一个管道,而在 server1 中创建的战争能够在 JBOSS EAP 7.0 中部署,但
- c - 为泛型代码提供的复制函数返回的类型可以是我们想要的任何类型吗?
- node.js - 使用 NodeJS 和 Express 进行 MongoDB GridFS 内容搜索
- javascript - 通过滚动正文隐藏 ios Safari 导航栏是唯一的方法吗?
- laravel - 如何在控制器返回时触发通知?