首页 > 解决方案 > 如何处理 Sqoop 中的垃圾字符

问题描述

使用 sqoop 将数据从 RDMS 导入 Hadoop 时。如果我的源系统包含垃圾字符,我们如何替换它们

例如:1,双关语,旅行,

标签: sqoop

解决方案


垃圾字符的定义可能因存储的数据和数据的使用而异。Sqoopimport 允许删除Hive分隔符(通过--hive-drop-import-delims选项)或替换Hive分隔符(通过--hive-delims-replacement选项)。导入作业将数据放到 Hadoop 上后,还需要进行其他形式的数据处理。

根据 Sqoop文档

--hive-drop-import-delims: Drops \n, \r, and \01 from string fields when importing to Hive.
--hive-delims-replacement: Replace \n, \r, and \01 from string fields with user defined string when importing to Hive.

推荐阅读