首页 > 解决方案 > 在scala中递归读取文件

问题描述

我正在尝试将嵌套在许多文件夹中的一组 XML 文件读入 spark 中的序列文件。我可以使用函数 recursiveListFiles 从如何列出 scala 的子目录中的所有文件中读取文件名?.

import java.io.File
def recursiveListFiles(f: File): Array[File] = {
 val these = f.listFiles
 these ++ these.filter(_.isDirectory).flatMap(recursiveListFiles)
}

但是如何在这里将文件内容作为单独的列读取?

标签: scalaapache-sparkpyspark

解决方案


使用 sparks wholeTextFiles 方法怎么样?然后自己解析XML?


推荐阅读