python - Azure Databricks - 将 Parquet 文件读入 DataFrame
问题描述
我是 Python 的新手……试图从 Databricks 读取镶木地板文件,但是当文件为空时会抛出错误。如何在将文件读入 DataFrame 之前检查文件大小。下面的代码:
%python
##check if file is empty ???
##if not empty read
##else do something else
try:
parquetDF =
spark.read.parquet("wasbs://XXXXX@XXXX.blob.core.windows.net/XXXX/2019-10- 11/account.parquet")
except:
print('File is Empty !!!')
解决方案
现在我正在做如下处理
%python
import pandas as pd
data = {
'Dummy': ['Dummy'],
}
parquetDF = pd.DataFrame(data)
try:
parquetDF = spark.read.parquet("wasbs://XXXXX@XXXXX.blob.core.windows.net/XXXXX/2019-10-11/account.parquet")
except:
print('Empty File!!!')
if (parquetDF.columns[0] == 'Dummy'):
print('Do Nothing !!!!')
else:
print('Do Something !!!')
创建 Dummy DataFrame,然后尝试使用 parquet Data 加载 DataFrame。如果任何异常/源文件为空 DF 将不会被加载。然后检查是否加载了DF并进行相应处理。
还尝试读取文件大小,但出现异常“没有这样的文件或目录”
%python
import os
statinfo = os.stat("wasbs://XXXXX@XXXXX.blob.core.windows.net/XXXXX/2019-10-11/account.parquet")
statinfo
推荐阅读
- node.js - 如何串行(非并行)运行 ChromeDriver 请求?
- json - 尝试动态创建 UI/Image 元素并不断更新它们
- python-3.x - 解析有序字典python
- json - SQL Server 2012 中的字符编码问题
- javascript - Javascript 代码未在 Chrome 控制台上执行
- rust - 有没有办法声明一个接受实现 FromStr 的类型作为错误的结果?
- javascript - 为对象数组反应输入 setState
- javascript - 无法获取 req.userData.role 的值
- python - Gimp 程序中的 OpenCV Python 脚本 - 草/硬表面边缘检测
- java - 我需要 java(eclipse) 中的椭圆 ROI 而不是二次 ROI