scala - 在 Spark 中的 HDFS 上写入 csv/parquet 时如何“强制”显示 CRC 文件
问题描述
我似乎遇到了与互联网其他人相反的问题——任何关于该主题的搜索都会引发数千个关于如何在使用 Spark 写出时抑制CRC 文件的问题。
在集群上使用 Spark 并将内容写入 HDFS 时,我看不到.crc
我通常在本地系统上看到的任何文件。任何想法如何“强迫”它们出现?
解决方案
您可以尝试以下方法,查看 hdfs 文件夹中是否出现 .crc 文件。
val customConf = spark.sparkContext.hadoopConfiguration
val fileSystemObject = org.apache.hadoop.fs.FileSystem.get(customConf)
fileSystemObject.setVerifyChecksum(true)
推荐阅读
- android - Android - 无法将视图设置为卡片内的 match_parent 高度以进行回收器视图
- matplotlib - 如何保存 Matplotlib 3D 动画,包括动画期间视角的变化
- r - 汇总变量以应用 PCA
- c++ - 将指向字符矩阵的指针传递给 C++ 中的构造函数的问题
- django - DRF + Serializer 从多个模型返回自定义数据
- flutter - 飞镖/颤振扩展中的运算符重载
- java - 如何在同一事务中使用 javax.persistence.Query.executeUpdate() 和 org.hibernate.session.update()
- python - 切换图例顺序
- html - 图像未采用父母身高
- javascript - D3 轴刻度时间格式 React