apache-spark - 从在 PySpark 中压缩的 XML 文件中读取数据
问题描述
我有一个场景,我必须读取在 PySpark 中压缩在一起的多个 XML 文件。
压缩文件大小:30 GB
解压后大小:600 GB
单个文件的最大大小:40 GB
提取时间:4小时
我能够使用 databricks API 读取带有预定义架构的提取的 XML 数据。但是提取数据本身会消耗大量时间。有没有办法直接从 zip 文件中读取数据而不是提取它?
提前致谢!!!!
解决方案
推荐阅读
- apache-flink - 何时使用瞬态,何时不使用 flink?
- python - 带有自定义对象的 Keras load_model 无法正常工作
- sql - 如何通过 id 和自定义类型选择下一行?
- c# - 如何从 .net 核心服务器调用 .net 客户端方法获取返回类型
- java - 发出 HTTP 请求后如何获取和处理 XML 响应
- api - 从 golang 中持久化卷的 OpenShift API 获取和修改 yaml 文件
- mysql - 基于另一列约束一列
- javascript - 一旦可用,如何选择对象值?
- javascript - 如何在网上商店销售价格上设置价格颜色
- mapbox - 如何根据 bbox 坐标计算位置的经度/纬度