首页 > 解决方案 > 将 Parquet 文件编辑为二进制文件

问题描述

假设 AWS S3 上的 Parquet 文件(用于 AWS Athena 查询)。

我需要通过更改数值来匿名化具有特定数字字段的记录(更改一位数就足够了)。

  1. 我可以将镶木地板文件扫描为二进制并找到一个数值吗?或者压缩会使找不到这样的字符串?
  2. 假设我可以做到 #1 - 我可以通过在二进制级别更改此数字上的数字来匿名记录而不损坏镶木地板文件吗?

10X

标签: hiveparquetamazon-athenaprestoorc

解决方案


不,这是不可能的。Parquet 的格式有两层,这使得这不可能:编码和压缩。它们都重新排序数据以适应更小的空间,它们之间的区别在于 CPU 使用率和通用性。有时数据可以被压缩,如果所有值都相同/非常相似,我们每个值需要的字节数少于一个字节。更改单个值会导致更多空间使用,从而使您无法进行编辑。


推荐阅读