首页 > 解决方案 > 如何读取带有分隔符 /u0001 的 .dat 文件并记录下一条记录将通过 scala 中的下一行分隔

问题描述

我有 .dat 扩展文件,其中没有任何标题 1.由 '\u0001' 分隔的字段 2.下一条记录将在新行中

如何使用 scala 在 spark 中读取此文件并转换为数据帧。

标签: scalaapache-sparkf#-data

解决方案


试试下面的代码,我假设你使用的是 spark > 2.x 版本-

val df = spark
      .read
      .option("header", "true")
      .option("inferSchema", "true")
      .option("delimiter", "\01")
      .csv("<CSV_FILE_PATH_GOES_HERE>")

推荐阅读