scala - 分离头文件和合并部分文件
问题描述
我有一个巨大的数据框,它在 Scala 中使用选项 header="true" 保存在 HDFS 中
这会创建多个部分文件,每个文件都有标题,当我使用 合并时hadoop fs -getmerge
,它会创建一个包含多个标题的单个文件。我可以使用 awk 并删除这些头文件,但这不是一个好习惯。
有没有办法将头文件写入一个单独的文件_header.csv
,然后在同一个文件夹中写入没有头文件的数据帧,然后使用合并所有内容hadoop fs -getmerge
?
我想过使用创建一个单独的制表符分隔的标题,sc.parallelize(Seq(<dataframe>.columns.mkString(“\t"))).saveAsTextFile(<filename>)
但这也创建了一个需要移动到另一个文件夹的部分文件,然后我将所有文件合并在一起
解决方案
推荐阅读
- user-interface - 编码的 UI 断言将一页中的两个项目视为同一个
- java - 使用for循环java反向制作一个数字
- ruby-on-rails - 查询结果在 postgresql(rails) 中的一组间隔范围
- excel - 使用键对堆积条形图进行颜色编码
- python - 在python中使用for循环打印几个字符串
- javascript - 如何检查每个请求在express js中都有cookie
- java - 第一个或第二个弹出窗口
- java - 如何将一维数组打印为 3 x 3,如何让 RNG 计算机检查值并继续搜索空白空间?
- testing - 在 Flutter 中测试时如何查找 Stack 的顺序?
- uipath - 如何在uipath的单个数据表中分配不同的变量