首页 > 解决方案 > 从在 PySpark 中压缩的 XML 文件中读取数据

问题描述

我有一个场景,我必须读取在 PySpark 中压缩在一起的多个 XML 文件。

压缩文件大小:30 GB

解压后大小:600 GB

单个文件的最大大小:40 GB

提取时间:4小时

我能够使用 databricks API 读取带有预定义架构的提取的 XML 数据。但是提取数据本身会消耗大量时间。有没有办法直接从 zip 文件中读取数据而不是提取它?

提前致谢!!!!

标签: apache-sparkpysparkdatabricks

解决方案


推荐阅读