pyspark - “DataFrame”对象没有属性“_jrdd_deserializer”?
问题描述
空 RDD 没有反序列化器,这会阻碍将不同的数据集附加到一个数据集上。我想将我的数据集附加到彼此上,类似于 pandas (df.append(new_df)) 方法。有什么解决方法吗?
df2 = spark.sparkContext.emptyRDD()
print(df2)
df2=df2.union(df_ptvb).cache()
最后一条语句导致错误。我有一个名为 df_ptvb 的有效 RDD,我想将它附加到我的空数据集上。我计划在管道上进一步锁定更多数据集。
解决方案
推荐阅读
- javascript - 停止制作表单以重新加载页面
- javascript - 最后如何在没有额外 AND 的情况下更好地构建这个 SQL 查询
- typo3 - 如何覆盖页面属性中的后端/制表符标签?
- c# - 在 Swagger 生成期间导入 OpenAPI 文档或 JSON
- error-handling - 如何编写 Clojure 线程宏?
- google-apps-script - 当与 Google App Script 匹配时,比较 1D 和 2D 数组并返回 2D 数组的值
- python - 如何使我的搜索递归 MIT 6001x 课程
- mysql - SQL查找另一列具有最大值但可重复值的列的最大值
- python - 如何在 Python 中解析函数的参数?
- html - 如何更改 HTML 表格中特定元素的位置