apache-spark - Spark读取从--files提交的csv文件
问题描述
我正在向纱线上的远程火花集群提交一个 Spark 作业,并在 spark-submit 中包含一个文件,--file
我想将提交的文件作为数据帧读取。但我对如何在不必将文件放入 HDFS 的情况下进行此操作感到困惑:
spark-submit \
--class com.Employee \
--master yarn \
--files /User/employee.csv \
--jars SomeJar.jar
spark: SparkSession = // create the Spark Session
val df = spark.read.csv("/User/employee.csv")
解决方案
spark.sparkContext.addFile("file:///your local file path ")
添加文件 usingaddFile
以便它可以在您的工作节点上可用。由于您想以集群模式读取本地文件。
您可能需要根据 scala 和您使用的 spark 版本进行轻微更改。
推荐阅读
- spring-integration - Spring路由inputChannel时第一个channel总是出错
- android - 我是否需要 CryptoObject 对象,或者在 FingerprintManager.authenticate 期间对于以下用例为 null
- ansible - Ansible WinRM 仅适用于组中 5 台主机中的 2 台主机
- apache - 如何从 PKCS#7 生成 .key 和 .crt
- arrays - (整数)切片索引作为结构数组
- django - “需要一个有效的文件名!” xhtml2pdf 与 Django
- android - 在 RecyclerView 项目按钮 OnClick 中使用共享首选项
- php - 添加 Google auth 2.0 应用程序需要什么范围?
- mongodb - MongoDB Shell - 打印数组的第一个元素
- html - 如何将文本元素设置为 0px 宽度?