json - 如何将字符串中带有双引号的json文件加载到spark scala中的数据框中
问题描述
我有以下 json 文件,我想将其读入数据框,但由于 json 文件在字符串中有双引号,因此我收到错误消息。例如:
数据:{ "Field1":"value"ue 1", "Field2":"value2", "Field3":"va"lu"e3" }
所需的输出” Field1,Field2,Field3 Value1,value2,value2
解决方案
您的 json 无效(因为嵌套的双引号),这就是您在使用 Spark 数据源 API 或任何其他 Json 解析器读取文件时出错的原因。
您可以做的是将文件读取为字符串的数据集,然后使用正则表达式清理每个字符串以删除无用的双引号,最后使用“from_json”函数解析每个字符串并从数据集转换数据集[ String] 到数据集[<您的案例类>]。
推荐阅读
- c# - Xamarin 表单按钮点击计数
- java - 如何使用 Appium 在 iOS 中滑动
- r - 通过公司网络执行时出现 rsDriver 错误
- yocto - yocto 在哪里分配默认内核?
- linux - 安装后拦截挂钩“update_gio_module_cache”失败
- python - 使用 C API 的 Numpy 多切片?
- python - Find missing words between two pandas columns
- javascript - 根据下拉列表中的选定文本灰显/禁用文本框
- typescript - 将 intersect 类型封装到接口中
- scala - 使用多个 url 进行 Gatlin 测试