apache-spark - Apache Spark:在 parquet 文件中包含分区列
问题描述
我有一个按月划分的庞大数据集。我可以使用 spark.write.parquet 方法编写镶木地板文件。尝试使用火花本身阅读时效果很好。Parquet 文件没有分区列,它由它们所在的文件夹表示。当尝试使用外部程序(如 polybase)读取镶木地板文件时,我们无法确定文件所属的月份。
有什么方法可以强制 spark 将分区列包含在镶木地板文件中?还有其他选择吗?
解决方案
推荐阅读
- python - 更大的批量减少训练时间
- c++ - 使用 boost 套接字的 Boost 序列化失败
- php - Codeigniter 如何在数组中使用 where OR, AND 子句
- android - Flutter firebase消息未收到通知
- .htaccess - 需要使用通配符重写规则
- arduino-uno - 温度传感器对 LED 的利用率
- regex - 2 提取构建号和版本名称的正则表达式
- swift - 如何在使用 Callkit 时播放声音,例如铃声?
- java - 无法从应用程序中提取 Info.plist:Plist 文件不存在:
- powershell - IIS SSL 证书绑定(获取绑定信息)