首页 > 解决方案 > 验证 spark 数据框中的列名和数据类型

问题描述

我想在 python 中使用 pyspark 读取 .csv 文件,但我只想为每一列提供类型,并使用标题(来自 .csv 文件)作为列名(不是模式中的名称)。有人知道该怎么做吗?

标签: pythoncsvapache-sparkvalidationpyspark

解决方案


在 Spark 中定义模式时,您总是必须为列命名。但是您可以将选项传递inferSchemaspark.read.csvSpark,这样 Spark 将自动获取列名并推断数据类型


推荐阅读