apache-spark - Spark - 从 hdfs 读取隐藏文件
问题描述
我正在使用 pyspark shell 来分析 hdfs 中的数据。hdfs 路径中有隐藏文件,我想通过 shell 读取它们。然而,点文件被火花忽略了。我怎样才能阅读它们?
# This is not loading hidden files into data-frame
dir="/abc/xyz"
df=spark.read.text(dir)
# This is not loading hidden files into data-frame
dir="/abc/xyz/*"
df=spark.read.text(dir)
# This is not loading hidden files into data-frame
dir="/abc/xyz/.*"
df=spark.read.text(dir)
任何建议,将不胜感激。
解决方案
尝试改变你的路径。
# This is not loading hidden files into data-frame
# dir="/abc/xyz/.*"
dir = "hdfs://yourhost:yourport/abc/xyz/"
df=spark.read.text(dir)
推荐阅读
- android - BottomNavigationView 覆盖 Listview 中的最后一项
- python - 如何更新属于从另一个抽象类继承的类的对象的模型 django 中的字段的值?
- javascript - 使用 office rest api 获取电子邮件附件 (.eml)
- python - tf.keras.optimizers 中 var_list 的顺序是否重要?
- typescript - 试图放置一个询问 res.body 值的断点
- javascript - useState 初始状态未定义(TypeError: setNav is not a function)
- java - Hibernate 生成格式错误的查询并将其发送到 SQL 服务器
- laravel - 来自“http://localhost:8000”的 Laravel 8 已被 CORS 策略阻止
- scala - Scala List 与 ListBuffer 中 concat 和 append 的性能
- python - 如何使用 django 模型中的方法使 django 布尔字段为真