首页 > 解决方案 > hadoop:HDFS中存储数据的格式

问题描述

我正在使用 spark 将数据加载到 HDFS 中。数据如何存储在 HDFS 中?是加密模式吗?是否可以破解 HDFS 数据?现有数据的安全性如何?

我想知道系统行为的细节。

标签: apache-sparkhadoophdfs

解决方案


HDFS 是一个分布式文件系统,支持纯文本格式 csv、tsv 文件等多种格式。其他格式,如 parquet、orc、Json 等。

在 Spark 中保存 HDFS 中的数据时,您需要指定格式。

没有任何 parquet 工具,您无法读取 parquet 文件,但 spark 可以读取它。

HDFS 的安全性由 Kerberos 身份验证控制。您需要明确设置身份验证。

但是spark读写数据的默认格式是-parquet


推荐阅读