python - 通过 uber/petastorm 将 ndarray 存储到 Parquet 中?
问题描述
是否可以通过uber/petastorm将 N 维数组存储到 Parquet中?
解决方案
是的。Petastorm 在标准 Apache Parquet 格式之上提供了一个自定义编解码器层和一个模式扩展。n 维数组/张量将被序列化为二进制 blob 字段。从用户的角度来看,这些看起来像原生类型,取决于您使用的环境(纯 Python/pyspark:numpy/array、Tensorflow 中的 tf.Tensor 或 PyTorch 中的 torch Tensor)。
这里有一些易于理解的示例:https ://github.com/uber/petastorm/tree/master/examples/hello_world/petastorm_dataset
推荐阅读
- ruby-on-rails - 包括 RailsAdmin 组中的所有剩余字段
- ios - 在 Firebase Crashlytics 仪表板中加载您的问题时出现 iOS 错误
- cmake - 将 fixup_bundle 结果添加到 CPack
- c - 如果可能,需要有关以下代码输出的帮助并进行解释
- python - 将后视模式与匹配的正则表达式搜索模式分组以作为一个整体替换
- android - 为密度拆分 apk:不支持 Galaxy S8+、Note 8、Galaxy S9+、Note 9
- javascript - AbortError - 使用 WebRTC 进行屏幕共享
- javascript - 无法在 Select 中加载 defaultProptypes - Ant Design
- pandas - 在多个 csv 文件中插入和重命名列并合并为一个 csv
- docker - 编译后的 Thrift bin 文件很大