首页 > 解决方案 > 在 Spark 中的 HDFS 上写入 csv/parquet 时如何“强制”显示 CRC 文件

问题描述

我似乎遇到了与互联网其他人相反的问题——任何关于该主题的搜索都会引发数千个关于如何在使用 Spark 写出时抑制CRC 文件的问题。

在集群上使用 Spark 并将内容写入 HDFS 时,我看不到.crc我通常在本地系统上看到的任何文件。任何想法如何“强迫”它们出现?

标签: scalaapache-sparkhadoopcrc

解决方案


您可以尝试以下方法,查看 hdfs 文件夹中是否出现 .crc 文件。

val customConf = spark.sparkContext.hadoopConfiguration
val fileSystemObject = org.apache.hadoop.fs.FileSystem.get(customConf)
fileSystemObject.setVerifyChecksum(true)

推荐阅读