hive - 将 Parquet 文件编辑为二进制文件
问题描述
假设 AWS S3 上的 Parquet 文件(用于 AWS Athena 查询)。
我需要通过更改数值来匿名化具有特定数字字段的记录(更改一位数就足够了)。
- 我可以将镶木地板文件扫描为二进制并找到一个数值吗?或者压缩会使找不到这样的字符串?
- 假设我可以做到 #1 - 我可以通过在二进制级别更改此数字上的数字来匿名记录而不损坏镶木地板文件吗?
10X
解决方案
不,这是不可能的。Parquet 的格式有两层,这使得这不可能:编码和压缩。它们都重新排序数据以适应更小的空间,它们之间的区别在于 CPU 使用率和通用性。有时数据可以被压缩,如果所有值都相同/非常相似,我们每个值需要的字节数少于一个字节。更改单个值会导致更多空间使用,从而使您无法进行编辑。
推荐阅读
- excel - 如何让 IF(AND) 在多个条件下工作?
- lm - model.frame.default 中的错误(公式 = r ~ N,drop.unused.levels = TRUE):可变长度不同(为“N”找到)
- prometheus - 在普罗米修斯警报管理器规则中获取节点标签
- python - 用其他东西替换 < 2 的值
- algorithm - 使用构建插入和中值构建数据结构
- javascript - Google 文件选择器对话框没有 iframe
- python - ModuleNotFoundError 即使模块/文件明确存在
- javascript - Centos 中带有 Laravel 后端 Api 线和 Nginx 的 VueJs 前端实例
- memory - 如何自动在另一个正在运行的进程的内存中查找数据?
- go - golang - 图像文件验证