apache-spark - 在 Spark 1.6 中,如何读取具有重复列名的 CSV 文件
问题描述
我无法找到读取列名重复两次的 CSV 文件的解决方案,但是在读取 CSV 文件时出现错误,提示列名重复
有没有办法在不更改 CSV 文件的情况下在 spark 中处理这个问题?
我的 CSV 数据看起来像这样由制表符 (\t) 和每列中的一些额外空格分隔。
col1 col2 col3
2020 100 sometext
解决方案
您也可以尝试使用 textfile 方法读取 csv 文件,然后将它们转换为 DF 或将它们拆分并映射回来后用作 RDD!
希望这有效!
推荐阅读
- laravel - 自定义 vue 包可以导出 Vuex 状态的片段,然后可以在 Laravel 项目的 Vuex 状态中导入/使用
- swift - XCTest 从以随机顺序运行的测试中获取执行顺序
- c++ - 使用指针和数组循环
- google-apps-script - 如何将一个谷歌文档复制到另一个
- pycharm - 为什么我的 pip 版本是最新版本时,我可以安装 Numpy,但不能安装另一个库?
- python-3.x - 如果我在整个数据集上使用 StandardScaler,fit 还是 fit_transform?
- node.js - NPM 模块画布是使用 NODE_MODULE_VERSION 88 针对不同的 Node.js 版本编译的
- javascript - 如何将 SSL websocket 与 mqtt 连接?
- apache-flink - Flink,如果多条记录满足条件,minBy或maxBy的行为是什么
- jquery - 为什么在将按钮附加到 div 元素后,删除按钮 ajax 调用的 onClick 不起作用?