首页 > 解决方案 > 在 Spark 1.6 中,如何读取具有重复列名的 CSV 文件

问题描述

我无法找到读取列名重复两次的 CSV 文件的解决方案,但是在读取 CSV 文件时出现错误,提示列名重复

有没有办法在不更改 CSV 文件的情况下在 spark 中处理这个问题?

我的 CSV 数据看起来像这样由制表符 (\t) 和每列中的一些额外空格分隔。

col1    col2  col3
  2020  100   sometext  

标签: apache-spark

解决方案


您也可以尝试使用 textfile 方法读取 csv 文件,然后将它们转换为 DF 或将它们拆分并映射回来后用作 RDD!

希望这有效!


推荐阅读