首页 > 解决方案 > spark如何仅推断某些特定列的类型?

问题描述

.options("inferSchema" , "true")用来推断数据框的架构并进行架构检查。

但我只想为某些特定列停用此推断模式。

原因是我们string在预期为 的列中偶尔收到 a integer,但它失败了。

当文件仅包含integer==> 时,spark 将其推断为integer==> 一切都很好 但有时而且很少见,我们会string在本专栏中收到一些。然后它失败了。

我不能期望string每天都有一个==>,因为大多数情况下spark都会推断出它,并且模式检查会失败。integer

这就是为什么我想检查 spark 是否只能推断某些列的类型检查,而不是所有数据帧的原因。并让另一列为strings

option("quote","")替代方案是仅在某些字段上设置参数。

标签: csvapache-sparkpysparkschemaazure-databricks

解决方案


推荐阅读