首页 > 解决方案 > Databricks 中的 Snappy 压缩和解压缩

问题描述

我正在解决一个我必须压缩列数据(数据类型是字符串)的问题。虽然我可以看到数据正在被压缩,但解压缩它似乎并没有显示我压缩的原始数据。我是压缩/解压缩的新手,所以我很难解决这个问题。

from snappy import * 
def compress_to_snappy(data):
  return snappy.compress(data,encoding="utf-8")
def decompress(data):
  return snappy.uncompress(data)
cSnappy = udf(compress_to_snappy, StringType())
dSnappy = udf(decompress, StringType())

comprsd_df = df.withColumn("compressed_col",cSnappy("metadata_col"))

输出:列表在压缩之前已转换为字符串

decomprsd_df = comprsd_df.withColumn("decompressed_col",dSnappy("compressed_col"))

输出:解压没有发生?

标签: pysparkcompressionazure-databricks

解决方案


推荐阅读