python - PySpark:如何将数据框与存储在其他变量中的列名连接起来
问题描述
我正在尝试学习 PySpark。我必须离开加入两个数据框,比方说A
和B
,基于各自的列colname_a
和colname_b
。通常,我会这样做:
# create a new dataframe AB:
AB = A.join(B, A.colname_a == B.colname_b, how = 'left')
但是,我不能直接使用列的名称。它们已存储在特定模块中,我必须这样称呼它们:
module.COLNAME_A # contains string with colname of A
module.COLNAME_B # contains string with colname of B
如何将这些字符串值放入上面的命令中,以便加入数据框?
解决方案
使用方括号而不是点符号来访问列名:
AB = A.join(B, A[module.COLNAME_A] == B[module.COLNAME_B], how = 'left')
推荐阅读
- firewall - 添加自动防火墙规则 pfsense
- javascript - iPad+Chrome - 如何限制虚拟键盘密码、地址和支付栏?
- reactjs - 当用户在使用应用程序时禁用 GPS 位置共享时,使用 expo 提醒用户
- python - 导航到新页面 safari selenium python 时 DOM 没有改变
- javascript - 从平面数组构建树
- python - 有没有办法将数据框列中的数据类型从对象转换为数字?
- python - 如何将 python 脚本连接到 PyQt5 中的按钮?
- sql - 减少 T-SQL 中插入中的值重复
- javascript - 在输入文本输入时,打印在跨度(jsbin)中输入的内容只能针对 ID 而不是 NAME att
- javascript - 使用香草 javascript 和点进行分页