首页 > 解决方案 > 日期无效:使用 pySpark 将 CSV 导入 Cassandra 时出错

问题描述

我正在使用 Jupyter NoteBook 运行 pySpark 代码以将 CSV 文件导入 Cassandra v3.11.3。低于错误。


... 1 more[![enter image description here][1]][1]

在此处输入图像描述-------------------------------------------------- -------------------------

我附上图片的pySpark代码:

[![pyspark_code][1]][1]

任何输入...

在此处输入图像描述

标签: apache-sparkpysparkcassandrapyspark-dataframes

解决方案


如果没有完整的跟踪,很难确切知道失败的地方。您粘贴的方法只是 p4yj 包装器方法,我们确实需要查看底层 Java 异常。

据我所知,您似乎还试图在 C* 写入上使用一些不受支持的选项。例如,“MODE”-“DROPMALFORMED”不是有效的 C* 连接器选项。DataFrame Writer 和 Reader 选项是特定于源的,因此很遗憾您无法混合和匹配。

这让我认为正在写入的数据实际上有一两个格式错误的日期字符串,并且在尝试写入损坏的记录时这段代码正在死去。解决此问题的一种方法是尝试在 CSV 读取上进行日期转换,我相信它确实支持DROPMALFORMED样式解析选项。


推荐阅读