首页 > 解决方案 > 从 pyspark 数据框中的两列中排列记录

问题描述

我想在一列中获取可进一步用于分组的记录。1. col2 中存在的 col1 中的记录(如 account)需要替换为 col2 的相似行值的 col1 记录,即(aaccounti) 2. col2 中重复的记录(例如(joinmuquiz)必须在这样,col1 (joinqui) 值的第二次出现应该替换为 col1 (joinmquiz) 值的第一次出现并且 col1 (joinqui) 应该替换 col2 (joinmuquiz) 值

 |-----------|--------------|   
 | col1      |    col2      |
 |-----------|--------------|
 |aaccounti  |  account     |
 |account    |  baccountry  |
 |joinmquiz  | joinmuquiz   |
 |joinqui    |  joinmuquiz  |
 |ahanime    |   hanime     |
 ----------------------------

以下是我期望的输出;

 |-----------|--------------|   
 | col1      |    col2      |
 |-----------|--------------|
 |aaccounti  |  account     |
 |aaccounti  |  baccountry  |
 |joinmquiz  | joinmuquiz   |
 |joinmquiz  | joinqui      |
 |ahanime    |   hanime     |
 ----------------------------

标签: pysparkpyspark-sql

解决方案


推荐阅读