pyspark - 从 pyspark 数据框中的两列中排列记录
问题描述
我想在一列中获取可进一步用于分组的记录。1. col2 中存在的 col1 中的记录(如 account)需要替换为 col2 的相似行值的 col1 记录,即(aaccounti) 2. col2 中重复的记录(例如(joinmuquiz)必须在这样,col1 (joinqui) 值的第二次出现应该替换为 col1 (joinmquiz) 值的第一次出现并且 col1 (joinqui) 应该替换 col2 (joinmuquiz) 值
|-----------|--------------|
| col1 | col2 |
|-----------|--------------|
|aaccounti | account |
|account | baccountry |
|joinmquiz | joinmuquiz |
|joinqui | joinmuquiz |
|ahanime | hanime |
----------------------------
以下是我期望的输出;
|-----------|--------------|
| col1 | col2 |
|-----------|--------------|
|aaccounti | account |
|aaccounti | baccountry |
|joinmquiz | joinmuquiz |
|joinmquiz | joinqui |
|ahanime | hanime |
----------------------------
解决方案
推荐阅读
- java - 如何从顶部和底部裁剪位图图像?
- c# - 验证将不起作用
- python - 在 Python 和 Oracle 中将 XML 转换为 JSON
- date - 计算 MS ACCESS 查询中两个日期之间的整月
- vb.net - 在循环中显示来自两个数组的 MsgBox() 数据
- ruby-on-rails - Rails:为什么除了第一个请求之外,我得到的都是 204 响应?
- vb6 - 应用程序终止后 VB6 IDE 崩溃
- optimization - 将许多电子表格合并到报告文件中超过了最大执行时间
- python - 尝试通过 Youtube 报告 API 访问帐户的 Youtube 数据会导致 HttpError 403:“调用者没有权限”
- c# - 创建包含多个文件的 Zip 文件 C#