apache-spark - 如何在使用 Spark 进行 sqooping 时处理记录中的额外 '\n'?
问题描述
我正在使用 Spark Sqoop 从 Oracle Sqooping 数据并将数据存储在 parquet 文件中。最重要的是,我正在创建 Hive 表。但是,某些字段包含不需要的“\n”。正因为如此,数据分散在两个单独的行中。我在从 jdbc sqooping 时尝试了下面的代码,仍然得到相同的结果。
val df=spark.read.format("jdbc").option("url",s"$DBUrl")
.option("dbtable",s"""($query) tmp""")
.option("parserLib", "univocity")
.option("multiLine", "true")
.option("user",s"$DBuser")
.option("driver","oracle.jdbc.driver.OracleDriver")
.option("numPartitions",num_part)
.option("partitionColumn","num_rows")
.option("lowerBound",0)
.option("upperBound",upperbound)
.option("fetchsize",100000)
.option("batchsize",100000).load()
解决方案
推荐阅读
- flutter - 你好,你知道这个包裹是从哪里来的吗?包:flutter_gen/gen_l10n/gallery_localizations.dart
- java - azure identity java sdk抛出MutableCoercionConfig错误
- npm - 如何找到具有特定依赖关系的 NPM 模块版本 - 例如,哪个版本的 webpack-cli 与 webpack@4.46.0 一起使用?
- google-sheets - 谷歌表格 - 引用另一张表格中的数据“DataSheet!A1:A”希望能够导入新表格并更新该引用......最好的方法?
- google-earth-engine - 蒙面的结果是微笑随机森林
- apache-spark - 每行的大约上一年
- rest - rest api 身份验证:如何在 vugen 的标头中将 NTLM Auth 信息发送到服务器
- mongoose - 使用带有 SchemaFactory 的 mongoose 中间件
- ios - Unicode 规范化不适用于 ASCII-8BIT
- bash - 通过 bash 脚本将标题添加到有时为空的 CSV 文件