python - PySpark - 读取镶木地板文件但不是同一文件夹中的另一个?
问题描述
我真的什么都不懂了……PySpark 不会读取同一文件夹中的所有文件。
ls
返回:
Verzeichnis von C:\Users\####\Data_Projects\NPL
21.04.2020 15:41 <DIR> .
21.04.2020 15:41 <DIR> ..
21.04.2020 13:18 <DIR> .ipynb_checkpoints
21.04.2020 14:50 <DIR> IMBD_Reviews
21.04.2020 15:40 <DIR> imdb_reviews_preprocessed
21.04.2020 14:48 13.717.398 imdb_reviews_preprocessed.parquet.zip
21.04.2020 15:38 21.738 NPL with pyspark.ipynb
23.10.2016 19:47 <DIR> sentiments.parquet
21.04.2020 14:51 38.387 sentiments.parquet.zip
21.04.2020 14:52 <DIR> tweets.parquet
21.04.2020 14:51 136.483 tweets.parquet.zip
4 Datei(en), 13.914.006 Bytes
7 Verzeichnis(se), 1.552.965.632 Bytes frei
tweets_df = sqlContext.read.parquet('tweets.parquet')
工作得很好,并且
rewievs = sqlContext.read.parquet("imdb_reviews_preprocessed.parquet")
返回错误
An error occurred while calling o541.parquet.
: org.apache.spark.sql.AnalysisException: Path does not exist: file:/C:/Users/####/Data_Projects/NPL/imdb_reviews_preprocessed/imdb_reviews_preprocessed.parquet;
...
任何想法?
解决方案
// get parquet files in folder
val f1 = spark.sparkContext.wholeTextFiles("/tmp/*.parquet")
.toDF("fileName", "dataInFile")
.select('fileName)
// DataFrame with files parquet in folder
val f10 = spark.read.parquet("/tmp/*.parquet")
推荐阅读
- reactjs - Appbar 与 Table 在同一页面上不可见 - ReactJS
- python - 使用python检查文件夹中是否存在特定文件
- javascript - 如何在 SHarePoint 2013 站点中的表单中显示计算的列值
- git - 在 powershell 中运行时出现 Git-Tfs 错误。“检索 LoaderExceptions”
- yocto - Yocto 自定义应用程序树
- javascript - 是否可以显示已由输入元素选择的图像?
- c# - 我可以在没有向导结构的情况下使用 PasswordRecovery Control ASP.NET (Membership) 吗?没有 SuccessTemplate 和 Question 模板?
- css - 绝对位置问题,在父标签中修复
- ssh - 缺少 Windows 10 SSH 文件夹和 known_hosts 文件
- kubernetes - Kubernetes 持久卷覆盖图像数据