sqoop - 如何处理 Sqoop 中的垃圾字符
问题描述
使用 sqoop 将数据从 RDMS 导入 Hadoop 时。如果我的源系统包含垃圾字符,我们如何替换它们
例如:1,双关语,旅行,
解决方案
垃圾字符的定义可能因存储的数据和数据的使用而异。Sqoop
import 允许删除Hive
分隔符(通过--hive-drop-import-delims
选项)或替换Hive
分隔符(通过--hive-delims-replacement
选项)。导入作业将数据放到 Hadoop 上后,还需要进行其他形式的数据处理。
根据 Sqoop文档:
--hive-drop-import-delims: Drops \n, \r, and \01 from string fields when importing to Hive.
--hive-delims-replacement: Replace \n, \r, and \01 from string fields with user defined string when importing to Hive.
推荐阅读
- java - 如何在Java中从Excel工作表(XSSF)中删除图像
- python - python爬虫ieee论文关键字
- laravel - 将数据从刀片传递到 vue 组件对黑客来说是安全的吗?
- vb.net - 将值保存到字符串集合中的设置
- c# - c#实体框架生成类排序子列表
- r - R中对数正态函数的二阶导数?
- jupyter-notebook - 为什么 Binder 无法识别 requirements.txt 文件?
- docker - 带有 docker 端口映射的 iptables
- python - 在python中创建一个既有点又有线的kml
- typo3 - TYPO3:使用 Bootstrap 和网格元素时的后端可用性