apache-spark - 快速压缩
问题描述
我正在尝试将 avro 文件存储为具有快速压缩的镶木地板文件。尽管数据被写入为带有 filename.snappy.parquet 的镶木地板,但文件大小保持不变。粘贴代码。
代码:
sqlContext.setConf("spark.sql.parquet.compression.codec","snappy")
orders_avro.write.parquet("/user/cloudera/problem5/parquet-snappy-compress")
解决方案
Snappy 压缩是 parquet-mr(Spark 用于编写 Parquet 文件的库)中的默认值。所以这里唯一改变的是文件名。
推荐阅读
- docker - How do I move a container from one node to another?
- powershell - PowerShell 应用程序部署工具包 - 显示注销框?
- dart - 如何基于包含 scheme+host+port 的字符串创建 URL
- java - 理解子接口中的重写接口方法
- amazon-web-services - Amazon Amplify/Route 53 上的自定义域上的 ERR_SSL_PROTOCOL_ERROR
- single-sign-on - 不同环境的单点登录服务 URL
- xmpp - 无法使用 Adium 连接到 ejabberd 服务器
- javascript - 重新绘制 xAxis 坐标
- python - Python库安装问题(通过pip install)
- angular - 选择角度垫选择选项时如何停止传播?