hadoop - Sqoop 增量 SemanticException 没有文件匹配 hdfs://host/user/xyz/_sqoop/ 错误?
问题描述
我正在尝试创建一个已保存的 sqoop 作业(增量)并使用 sqoop 元存储作为存储库。(出于安全原因,“xyz”是运行作业的 unix 用户,sample_table 用于参考)
sqoop job -Dhadoop.security.credential.provider.path=jceks://path/to/pwd \
--meta-connect "jdbc:hsqldb:file:/tmp/sqoop-meta.db;shutdown=true" \
--create sample_job --import -Dmapred.job.queue.name=realtime \
--connect jdbc:mysql://hostname/db?zeroDateTimeBehavior=convertToNull \
--driver com.mysql.jdbc.Driver \
--table SAMPLE_TABLE -m 1 \
--username tony \
--password-alias pwd \
--incremental lastmodified \
--check-column ts \
--last-value 2018-04-24 \
--target-dir /some/tmp/location/ \
--map-column-hive XYZ=tinyint \
--null-string '' \
--null-non-string ''
使用本地 sqoop 元存储,在执行存储的作业时也会使用它。
sqoop job --meta-connect "jdbc:hsqldb:file:/tmp/sqoop-meta.db;shutdown=true" -exec sample_job
Sqoop 运行良好,我可以看到数据被拉到 hdfs 位置。但是,最后得到这个错误。似乎无法在任何地方找到解决方法。尝试授予 _sqoop 目录的完全权限,但仍然存在相同的问题。
Logging initialized using configuration in jar:file:/usr/hdp/2.6.4.0-91/hive/lib/hive-common-1.2.1000.2.6.4.0-91.jar!/hive-log4j.properties
OK
Time taken: 3.028 seconds
FAILED: SemanticException Line 2:17 Invalid path ''hdfs://hostname/user/xyz/_sqoop/ad240610c282442cb65b61b14f582935_sample_table'': No files matching path hdfs://vBAPUAT01nn/user/xyz/_sqoop/ad240610c282442cb65b61b14f582935_sample_table
但上述文件不在 _sqoop 位置。相反,每次我运行 sqoop 操作时,都会看到创建的新的不同名称的文件。/ sqoop/
$ hadoop fs -ls /user/pcjaapp/_sqoop/
drwxrwxrwx - xyz hdfs 0 2018-04-26 16:31 /user/xyz/_sqoop/1ab0f2de2ace4984b7b978af5f8f8336_sample_table
drwxr-xr-x - xyz hdfs 0 2018-04-27 10:50 /user/xyz/_sqoop/3aedb9fc0857433f8388ae2c70019d93_sample_table
drwxrwxrwx - xyz hdfs 0 2018-04-26 16:54 /user/xyz/_sqoop/6dfb90bcf7854f5e82efebbcd317cabe_sample_table
drwxrwxrwx - xyz hdfs 0 2018-04-26 15:29 /user/xyz/_sqoop/a59b80e855734c35b785bdc35dcbd5a6_sample_table
drwxrwxrwx - xyz hdfs 0 2018-04-26 14:30 /user/xyz/_sqoop/b77d4b88140e469daa5aa0962b56b562_sample_table
有人可以阐明这里到底发生了什么。在这个领域相当新,因为这是第一次尝试使用 Metastore 启动 sqoop 增量作业。
解决方案
我挖掘了官方文档和 hortonworks 资源,终于能够通过从 sqoop 命令中删除以下参数来解决问题:
--hive-import \
--map-column-hive XYZ=tinyint \
我意识到在这种情况下可以通过将 tinyint 转换为字符串来忽略它。如果使用上面的命令,sqoop 也需要“--hive-import”子句,这就是它失败的地方,因为它每次sqooped 时都需要一个基础表。当上述子句被删除 + map-column-hive 参数时,sqoop 成功完成并能够使用 last-value 更新元存储。
推荐阅读
- java - JAVA:为什么 Eclipse 将我的第二个 else-if 语句称为“死代码”?
- java - 我们可以传递子类的实例而不是超类作为方法/构造函数参数吗?
- qt - Qt - 如何从包含在特定模式中的 QString 中提取文本片段
- javascript - 创建逗号分隔的对象列表的最短方法
- html - 解析 HTML getElementsByTagName 不返回所有单元格
- python - 为什么我的 elif 语句出现语法错误?
- mysql - Laravel lockForUpdate + 事务
- javascript - 在构造函数中使用“this”关键字是否会增加总体内存使用量?
- java - Spring Data JPA 本机查询不遵循投影的命名约定
- python - 仅将 Django 应用程序迁移到备用数据库