pyspark - pyspark:read.parquet 同时跳过丢失的文件
问题描述
我认为这个问题与Spark 有关:仅当路径存在时才读取文件,而另一个是针对 Scala 的。
我正在从以下位置读取文件hdfs
:
df_list = sqlContext.read.option('basePath','/data/').parquet(*search_path)
问题是如果缺少文件,该read
命令将引发异常并停止。
有没有办法让read.parquet
跳过列表中丢失的文件search_path
?
非常感谢
解决方案
您可以使用相同的方法:使用 python hdfs 客户端测试目录是否为空。
请参阅此链接以了解更多用法。
推荐阅读
- typescript - 如何在primeng下拉列表中显示搜索结果
- eclipse - Eclipse中带有深色主题的复选框问题(白底白字)
- php - Yii2 Tabs 内容一页
- python - x[:,[0,1,2,2]](一种拼接)在python的numpy数组中是什么意思?我在 anaconda 中执行以下操作
- java - Rest API java spring - 将文本和pdf上传到PostgreSQL数据库(邮递员 - 表单数据)
- reactjs - Jest SyntaxError:意外的令牌导出
- go - 如何从测试覆盖范围中排除包或包中的一些文件?
- linux - MkdirAll 权限不适合 linux 权限
- python - Python Selenium Chrome Webdrives在程序执行后意外关闭
- javascript - javascript 用给定的文本计算文本区域的高度