amazon-s3 - Amazon S3 SelectObjectContent 错误 - OverMaxParquetBlockSize
问题描述
我正在尝试使用 S3 的选择功能,但对于某些文件,我收到 OverMaxParquetBlockSize 错误。
我的选择很简单:
r = s3.select_object_content(
Bucket='prod-bucket',
Key='810217_0',
ExpressionType='SQL',
Expression="select s.* from s3object s where s.\"id\" = 3744469",
InputSerialization = {'Parquet': {}},
OutputSerialization = {'JSON': {
"RecordDelimiter": "\n",
}},
)
这是完整的错误:
ClientError: An error occurred (OverMaxParquetBlockSize) when calling SelectObjectContent operation: Parquet file is above the max block size
有没有办法解决这个问题或找到有关此限制的更多信息?
谢谢
解决方案
根据S3 Select docs,这是一个硬限制 - 未压缩的块大小不能超过 256MB。
我能想到的唯一“解决方法”是用更小的块大小编写 Parquet 文件,但这可能并不总是一个现实的选择。
推荐阅读
- scala - scala - 比较元组或通过超过 1 个元组的键相交
- docker - 在 docker 容器之间共享样式表文件
- html - 如何使迷你图像和描述容器位于导航栏/标题的底部或末尾?
- react-native - 读取目录中的文件 - Expo FileSystem
- r - 自动安装最有用的软件包
- reactjs - 反应:反应引导按钮
- azure - Azure 文本到语音服务没有响应
- java - Spring Boot RestTemplate ClientHttpRequestInterceptor 日志响应正文以防出现异常
- python - Discord Python Bot:关卡和 EXP 系统
- c++ - 调试和自由执行中的信号处理