首页 > 解决方案 > 如何在使用 Spark 进行 sqooping 时处理记录中的额外 '\n'?

问题描述

我正在使用 Spark Sqoop 从 Oracle Sqooping 数据并将数据存储在 parquet 文件中。最重要的是,我正在创建 Hive 表。但是,某些字段包含不需要的“\n”。正因为如此,数据分散在两个单独的行中。我在从 jdbc sqooping 时尝试了下面的代码,仍然得到相同的结果。

val df=spark.read.format("jdbc").option("url",s"$DBUrl")
  .option("dbtable",s"""($query) tmp""")
  .option("parserLib", "univocity")
  .option("multiLine", "true")
  .option("user",s"$DBuser")
  .option("driver","oracle.jdbc.driver.OracleDriver")    
  .option("numPartitions",num_part)
  .option("partitionColumn","num_rows")
  .option("lowerBound",0)
  .option("upperBound",upperbound)
  .option("fetchsize",100000)
  .option("batchsize",100000).load()

标签: apache-sparksqoop

解决方案


推荐阅读