首页 > 解决方案 > 在pyspark中将数据帧字符串对象数据读取为json格式

问题描述

我在数据框中有字符串数据,想将其读取为 json 格式并将其加载到另一个数据框中。

样本 :


.       {"request":{"pat...|
        |{"request":{"pat...|
        |{"request":{"pat...|
        |{"request":{"pat...|
        |{"request":{"pat...|
        |{"request":{"pat...|
        |{"request":{"pat...|
        |{"request":{"pat...|
        |{"request":{"pat...|
        |{"request":{"pat...|
        |{"request":{"pat...|



架构:根

         |-- col1: string (nullable = true)

谢谢,

标签: apache-sparkpyspark

解决方案


尝试这个:

new_df = spark.read.json(df.select("col1").rdd.map(lambda r: r.json))

在此处输入图像描述


推荐阅读