python - 验证 spark 数据框中的列名和数据类型
问题描述
我想在 python 中使用 pyspark 读取 .csv 文件,但我只想为每一列提供类型,并使用标题(来自 .csv 文件)作为列名(不是模式中的名称)。有人知道该怎么做吗?
解决方案
在 Spark 中定义模式时,您总是必须为列命名。但是您可以将选项传递inferSchema
给spark.read.csv
Spark,这样 Spark 将自动获取列名并推断数据类型
推荐阅读
- python - 如何检查一个单词是否在python中的短语中(简单的搜索引擎)
- javascript - D3 + React - 当更新数据到达时重新绘制整个力图,而不是仅更新链接
- c# - 如何在 JetBrains Rider 的同一个项目中创建 MVC 和 Web API 项目?
- c# - 如何使用 Google Calendar API 在 C# 中的 Google Meet 中创建视频会议活动?
- git - 如何将git存储空间从SSD移动到硬盘
- reactjs - 任何人都可以使用我的 GET 端点获取我的博客文章并在他自己的网站上使用它们吗?有没有办法保护这个?
- visual-studio-code - 使用带有 slurm 的笔记本
- angular - 是否可以在角度路由器初始化之前执行一些逻辑(API 调用)?
- algorithm - 如何在多边形对象中找到相交点
- prolog - 给定prolog谓词返回true时,如何打印写入值?