python - 如何在代码工作簿中合并 Palantir Foundry 中的两个数据集?
问题描述
我需要在 Palantir Foundry 的代码工作簿中合并两个数据集,但我不知道该怎么做。我想使用 Pyspark 来做到这一点。我是Foundry的新手,请帮忙!
解决方案
这与在任何其他环境中使用 PySpark 的方式相同!
如果你想联合两个具有相同模式的数据集,比如datasetA
and datasetB
,你可以做类似的事情
dataset_unioned = datasetA.unionByName(datasetB)
同样,这假设(并且您可能应该确保您的数据结构遵守这一点)您的两个数据集具有相同的模式。在此处查看 PySpark 文档!
推荐阅读
- windows - 想要使用多线程和 powershell 作业来运行单独的 windows 窗体,因为显示对话冻结父窗体
- jenkins - 在 Gcp 上安装和配置 Jenkins,而不暴露 VM 的公共 ip
- r - 当字符值相等时,如何组合数据行?(右)
- database - phpmyadmin 中的永久链接错误,没有站点名称
- python - 我的分类器在所有测试数据集上给出了 1.0 的准确度(错误的照片除外)
- mysql - MySQL 函数 ST_Distance_Sphere 没有使用 Haversine 公式?
- python - SQLite 将数据从一个表更新到另一个表
- snowflake-cloud-data-platform - Snowflake ACCOUNT_USAGE.FUNCTIONS - 没有函数类型列
- c# - 在 Visual Studio 2019 aspx C# 项目中预览 Crystal Report 时,为什么会出现这样的错误?
- html - 滚动模式引导