pyspark - Databricks 中的 Snappy 压缩和解压缩
问题描述
我正在解决一个我必须压缩列数据(数据类型是字符串)的问题。虽然我可以看到数据正在被压缩,但解压缩它似乎并没有显示我压缩的原始数据。我是压缩/解压缩的新手,所以我很难解决这个问题。
from snappy import *
def compress_to_snappy(data):
return snappy.compress(data,encoding="utf-8")
def decompress(data):
return snappy.uncompress(data)
cSnappy = udf(compress_to_snappy, StringType())
dSnappy = udf(decompress, StringType())
comprsd_df = df.withColumn("compressed_col",cSnappy("metadata_col"))
decomprsd_df = comprsd_df.withColumn("decompressed_col",dSnappy("compressed_col"))
输出:解压没有发生?
解决方案
推荐阅读
- python - 查找python支持的最大正数
- pyspark - pyspark saveAsTable 不保存到虚拟驱动器(谷歌驱动器)
- angular-cli - 未捕获(承诺),打开新的 Angular 项目时无法读取配置器
- python - TypeError:尝试绘制函数时,只能将大小为 1 的数组转换为 Python 标量
- go - 在golang中有多个返回值的函数返回1个值
- django - 自定义模型的 Django to_python 方法。DateTimeField 没有收到正确的值
- class - 对多个按钮事件监听器“单击”或 .onclick 使用相同的类 - 只会工作一次
- node.js - 在lodash中用topairs展平嵌套对象
- jwt - JWT 令牌中的用户 ID 属性到后端 WSO2 APIM
- qt - 如何在 qml 中实现嵌套列表模型