pyspark - 如何在 Pyspark 中将两个数据集合并为一个
问题描述
假设我们有两个数据集:
数据集 1:
id name
1 James
2 Tom
数据集 2:
id name
1 Bond
2 Jerry
我想要以下格式的数据集 3
数据集 3:
id name
1 James
2 Tom
3 Bond
4 Jerry
提前致谢!!
解决方案
非常坦率的,
df3 = df1.union(df2)
推荐阅读
- javascript - 如何从 Binance Websocket NPM 包中获取上一卷
- jbpm - 为 jbpm 服务任务调用 spring bean
- django - 根据来自根对象的更多字段过滤 django Prefetch
- flutter - 周期性定时器在initState()中被复制
- embedded-linux - systemd初始化时如何禁用根分区的自动挂载
- c++ - 接收函数输出时使用 std::move
- macos - Mac 催化剂:更改菜单项名称
- phpstorm - 对类型库中包含的 COM 接口的 IntelliSense 支持
- asp.net - 如何验证提交的 Token
- python-3.x - 安装 pycrypto 时需要 Microsoft Visual C++ 14.0 或更高版本的错误