pyspark - 检查内存中的 RDD 表是否存在,并使用 Databricks 中的 TeraData 连接将所有存在的表联合起来?
问题描述
作为每周工作的一部分,我正在检查许多表,并希望使查询动态化。目前,我手动检查每个表,然后使用一系列嵌套的“try-except”语句附加那些存在的表。展望未来,企业希望添加更多表格
我想从 tera 数据创建一个查询/连接,它可以扫描表是否存在。如果它确实存在于 Teradata 中,请将其导入 databricks,将所有导入的表合并在一起,然后对合并后的表执行一系列计算。
query = '''
(
SELECT
*
FROM dleci_sa.eg_wk{}_kcg_result
) as df'''.format(last_week)
df_kcg = read_teradata_parallel(jdbcDatabase,td_user,td_pass,query)
#unionise the two disparate df together
try:
df=df_kcg.union(df_ptvb).cache()
df.count()
except:
try:
df=df_ptvb
except:
df=df_kcg
这样看,我可以很好地检查表是否存在。如果不是“df_kcg”(来自代码)将不会返回任何值。当我需要动态地将它们联合在一起时,问题就出现了。帮助!!
解决方案
推荐阅读
- azure - HTTPS url 不工作,但相同的 HTTP 工作
- python - 如何从 .ods 文件制作列表?
- javascript - 如何从typeorm插入多对多关系的数据?
- excel - Excel VBA - 如何在 ThisWorkbook.ContentTypeProperties 中定义 Prop?
- selenium - 如何从调用的功能文件继承 webdriver 实例?
- java - 转换从 API 调用返回的对象时出现 Java IllegalCastException
- python - 访问numpy数组中焦点单元周围的单元
- html - 当我自定义 div 标签大小时,它会自动向左浮动并失去手机响应能力
- php - 如何检测客户端计算机上的 Internet 连接
- python - 在python中使用无优美图像进行边缘检测