sql - 在 PySpark SQL 中返回所有空值的列的总和
问题描述
我是 Spark 的新手,这可能是一个简单的问题。
我有一个名为 sql_left 的 SQL,格式如下:
这是使用 sql_left.take(1) 生成的示例数据:
[Row(REPORT_ID='2016-30-15/08/2019', Stats Area='2 Metropolitan', Suburb='GREENACRES', Postcode=5086, LGA Name='CITY OF PORT ADELAIDE ENFIELD', Total Units=3, Total Cas=0, Total Fats=0, Total SI=0, Total MI=0, Year=2016, Month='November', Day='Wednesday', Time='01:20 am', Area Speed=50, Position Type='Not Divided', Horizontal Align='Straight road', Vertical Align='Level', Other Feat='Not Applicable', Road Surface='Sealed', Moisture Cond='Dry', Weather Cond='Not Raining', DayNight='Night', Crash Type='Hit Parked Vehicle', Unit Resp=1, Entity Code='Driver Rider', CSEF Severity='1: PDO', Traffic Ctrls='No Control', DUI Involved=None, Drugs Involved=None, ACCLOC_X=1331135.04, ACCLOC_Y=1677256.22, UNIQUE_LOC=13311351677256, REPORT_ID='2016-30-15/08/2019', Unit No=2, No Of Cas=0, Veh Reg State='UNKNOWN', Unit Type='Motor Vehicle - Type Unknown', Veh Year='XXXX', Direction Of Travel='East', Sex=None, Age=None, Lic State=None, Licence Class=None, Licence Type=None, Towing='Unknown', Unit Movement='Parked', Number Occupants='000', Postcode=None, Rollover=None, Fire=None)]
注意:Age 列有 'XXX'、'NUll' 和其他整数值,如 023,034 等
。 printSchema 将 Age、Total Cas 显示为整数。
我试过下面的代码首先加入两个表:
sql_left = spark.sql('''
SELECT *
FROM sql_crash c Left JOIN sql_units u ON c.REPORT_ID=u.REPORT_ID''')
sql_left.createOrReplaceTempView("mytable")
下面的代码生成 Total Cas:
sql_result = spark.sql('''select concat_ws(' ', Day, Month,Year,Time) as Date_Time,Age,"Licence Type","Unit Type",Sex,COALESCE(sum("Total Cas"),0) as Total_casualities from mytable where Suburb in ('ADELAIDE','ADELAIDE AIRPORT','NORTH ADELAIDE','PORT ADELAIDE') Group by Date_Time, Age,"Licence Type","Unit Type",Sex order by Total_casualities desc''')
sql_result.show(20,truncate=False)
我得到的输出低于总和为0。
+--------------------------------+---+------------+---------+-------+-----------------+
|Date_Time |Age|Licence Type|Unit Type|Sex |Total_casualities|
+--------------------------------+---+------------+---------+-------+-----------------+
|Friday December 2016 02:45 pm |XXX|Licence Type|Unit Type|Unknown|0.0 |
|Saturday September 2017 06:35 pm|023|Licence Type|Unit Type|Male |0.0 |
+--------------------------------+---+------------+---------+-------+-----------------+
我尝试了多种选择,但没有任何结果。我的主要问题是 Total_casualities 如果我使用COALESCE(sum("Total Cas"),0)
. 如果我不使用 COALESCE,它会将值显示为 NULL。
非常感谢您的帮助。
解决方案
不要在双引号中指定 Total Cas(“Total Cas”),而是在反引号中提及它。
i.e. `Total Cas`
注意:中间有空格的列名需要用反引号指定。正如您在引号中提到的那样,它认为它是一个字符串,这就是您没有得到总和的原因。此外,对于其他列(如Licence Type
、Unit Type
),它显示的内容与字符串相同,而不是其值。希望你明白了。
sql_result = spark.sql('''select concat_ws(' ', Day, Month,Year,Time) as Date_Time,Age,`Licence Type`,`Unit Type`,Sex,**sum(`Total Cas`)** as Total_casualities from mytable where Suburb in ('ADELAIDE','ADELAIDE AIRPORT','NORTH ADELAIDE','PORT ADELAIDE') Group by Date_Time, Age,`Licence Type`,`Unit Type`,Sex order by Total_casualities desc''')
推荐阅读
- xml - 合并
通过 XSLT - python - 加载腌制文件时出现问题
- css - 对 Angular 7 项目使用响应式风格的最佳方法是什么。我为每个组件添加了 css
- python - 如何在 Python 中使用 RSA 私钥(非正常签名)加密数据?
- angular - canLoad 不会阻止组件加载
- python - Python检查文本框是否未填充
- html - 为什么剃须刀中的 td 元素无法识别样式?
- scala - 我应该在 apply 方法中在哪里定义隐式参数?
- wordpress - 如何在 wordpress 自定义端点中调用类方法作为回调函数?
- c# - 为什么 Oracle 复制单个插入