apache-spark - 默认情况下,spark 在哪个文件系统中查找读取文件?
问题描述
我正在尝试在 CentO 上以独立模式运行 spark,并尝试使用从本地文件系统读取文本文件
scala > var text = sc.textFile("/home/Documents/test.txt")
但它给出了例外 -
引起:java.net.ConnectException:连接被拒绝。
但是当我将代码更改为:
scala > var text = sc.textFile("file:///home/Documents/test.txt")
我能够阅读它。
我的问题是:
当尝试读取没有 file:/// 的文件时,它是否在 HDFS 文件系统中查找文件?是的,那么 HDFS 是默认 FS,在哪里火花搜索文件?
解决方案
推荐阅读
- ubuntu-18.04 - 在 squid access.log 日志中显示完整的 URL
- bootstrap-4 - 使用 Bootstrap 4 引导选择 jQuery 插件
- pyspark - 使用 BertSentenceEmbeddings 的 SparkNLP 文本分类
- javascript - 如何使用带有 react.js webapp 的 Bootstrap html/css 页面?
- css - Poppins @import 无法正常工作的外部样式问题
- python - 试图查找一个文件中的元素是否存在于另一个文件中
- javascript - 如何在 nightwatch.js 中执行“向上滚动”
- laravel - Laravel 8中的外部连接3个或更多表
- python - -bash:错误的解释器:没有这样的文件或目录
- python - 当我只知道行号时如何从 CSV 文件中删除行?