首页 > 解决方案 > 将大文件从 SAS 传输到 hadoop - CSV

问题描述

我已经从 SAS 导出了一个数据集,并试图将相同的文件导入 Hadoop。数据集为 csv 格式。这是一个巨大的文件——6GB

问题 – 我正在通过 HUE 上传文件 – 文件导入上传后出现以下问题:

  1. 列具有重叠值例如:Col 1 -> A, col 2  B 上传后 Col 1  AB
  2. 很少有列有垃圾值  ?钻石等
  3. 列数据类型不同

有 400 个变量,因此更改数据集中的一个变量非常繁琐

有什么方法可以上传带有数据的巨大 csv 文件(列和值完好无损)

标签: hadoopsashue

解决方案


推荐阅读