hadoop - 将大文件从 SAS 传输到 hadoop - CSV
问题描述
我已经从 SAS 导出了一个数据集,并试图将相同的文件导入 Hadoop。数据集为 csv 格式。这是一个巨大的文件——6GB
问题 – 我正在通过 HUE 上传文件 – 文件导入上传后出现以下问题:
- 列具有重叠值例如:Col 1 -> A, col 2 B 上传后 Col 1 AB
- 很少有列有垃圾值 ?钻石等
- 列数据类型不同
有 400 个变量,因此更改数据集中的一个变量非常繁琐
有什么方法可以上传带有数据的巨大 csv 文件(列和值完好无损)
解决方案
推荐阅读
- django - 在 Django Api 上部署
- c++ - 将函数参数更改为全局变量会导致意外结果
- javascript - 在反应js中显示当月所有剩余天数
- optimization - 计算 [1..N] 中前导 1 以下 K 个零位的整数?(没有 HW POPCNT 的连续范围的 popcount)
- vue.js - 从 Vue Router 导航栏生成一个完全空白的页面
- javascript - 如何以 Thymeleaf 形式更新“th:field”?
- git - 詹金斯忽略詹金斯文件
- javascript - MasonryJS 图像库在页面刷新时左对齐
- html - IOS iphone 6 屏幕和小字体大小
- jenkins - 从源代码仓库自动创建 Jenkins 作业 - 没有 jenkins 交互