pyspark - Pyspark 中的多个过滤器
问题描述
需要根据记录代码和服务日期使用多个条件过滤数据,并根据col1
, col2
, . 计算不同的值col3
。
在执行期间解决 Pyspark 参数时遇到问题并且不返回任何记录。
from_dt = 01-01-2018
end_dt= 12-31-2018
df.filter((trim(df.code) =='AB') | (trim(df.code) =='CD') | (trim(df.code) =='F')).filter("from_dt >= '${0}' & end_dt <= ${1}'").select("col1","col2","col3").distinct().count()
解决方案
推荐阅读
- java - 使用杰克逊将xml转换为Java对象
- firebase - 使用 Firebase 后端通过电话号码快速查找用户
- php - 如果用户在代理后面,则网站打开问题
- javascript - 具体来说,使用 DroneIO 有哪些优势?
- django - 如何从 Django 查询集中的 ForeignKey 的相关模型中获取值?
- mongodb - 需要从 MongoDB 集合中生成结构化文档
- cryptography - BCryptDeriveKeyPBKDF2 替代 Windows Embedded Compact 2013
- selenium-webdriver - 使用 selenium webdriver 在弹出的提交表单上单击提交按钮
- angular - 为什么从服务器接收到新数据后模板不渲染?
- angular - 具有嵌套数组的角反应形式