首页 > 解决方案 > PySpark 数据帧在写入配置单元表时丢弃记录

问题描述

我正在尝试将 pyspark 数据框写入配置单元表,该表也是使用以下行创建的

 parks_df.write.mode("overwrite").saveAsTable("fs.PARKS_TNTO")

当我尝试打印数据帧的计数时,parks_df.count()我得到 1000 条记录。

但在决赛桌中fs.PARKS_TNTO,我得到了 980 条记录。因此,有 20 条记录被丢弃。我该如何解决这个问题?. 另外,我怎样才能捕获被丢弃的记录。这个最终表上没有分区fs.PARKS_TNTO

标签: apache-sparkpysparkhiveapache-spark-sqlhiveql

解决方案


推荐阅读