apache-spark - PySpark 数据帧在写入配置单元表时丢弃记录
问题描述
我正在尝试将 pyspark 数据框写入配置单元表,该表也是使用以下行创建的
parks_df.write.mode("overwrite").saveAsTable("fs.PARKS_TNTO")
当我尝试打印数据帧的计数时,parks_df.count()
我得到 1000 条记录。
但在决赛桌中fs.PARKS_TNTO
,我得到了 980 条记录。因此,有 20 条记录被丢弃。我该如何解决这个问题?. 另外,我怎样才能捕获被丢弃的记录。这个最终表上没有分区fs.PARKS_TNTO
。
解决方案
推荐阅读
- dpdk - DEV_TX_OFFLOAD_VXLAN_TNL_TSO 卸载测试 - DPDK
- api - VueJS - 如何在同一组件中的另一个 API 调用中使用一个 API 调用的响应
- java-native-interface - JNI 类和接口命名
- ansible - Ansible with_items 第二个列表作为条件
- c# - OneTimeSetUp:System.ComponentModel.Win32Exception:没有足够的内存资源来处理此命令
- raspberry-pi - 尝试在 Raspberry Pi 集群上设置多语言环境教堂
- c++ - 从类/结构中声明的枚举类型到在该类/结构中也声明的对等静态方法?
- python - 获取附加到Django中每个对象的前N个标签
- vue.js - 在 Nuxt js 项目 axios 自动编码 url
- java - 从具有列表字段的 Java 对象创建 QueryDSL 谓词的问题