python - Spark:如何从数据框行转换具有多个键的 JSON 字符串?
问题描述
我正在寻求帮助,如何使用 json 结构的多个键解析 json 字符串,请参阅required output
.
下面的答案显示了如何用一个转换 JSON 字符串Id
:
jstr1 = '{"id_1": \[{"a": 1, "b": 2}, {"a": 3, "b": 4}\]}'
当每个字符串中每个 JSON 字符串的 Id 数量发生变化时,jstr1
如何转换 , 中的数千个 Id 。jstr2
当前代码:
jstr1 = """
{"id_1": [{"a": 1, "b": 2}, {"a": 3, "b": 4}],
"id_2": [{"a": 5, "b": 6}, {"a": 7, "b": 8}]}
"""
jstr2 = """
{"id_3": [{"a": 9, "b": 10}, {"a": 11, "b": 12}],
"id_4": [{"a": 12, "b": 14}, {"a": 15, "b": 16}],
"id_5": [{"a": 17, "b": 18}, {"a": 19, "b": 10}]}
"""
schema = "map<string, array<struct<a:int,b:int>>>"
df = sqlContext.createDataFrame([Row(json=jstr1),Row(json=jstr2)]) \
.withColumn('json', F.from_json(F.col('json'), schema))
output = df.withColumn("id", F.map_keys("json").getItem(0)) \
.withColumn("json", F.map_values("json").getItem(0))
output.show(truncate=False)
电流输出:
+-------------------+----+
|json |id |
+-------------------+----+
|[[1, 2], [3, 4]] |id_1|
|[[9, 10], [11, 12]]|id_3|
+-------------------+----+
所需输出:
+---------------------+------+
| json | id |
+---------------------+------+
|[[[1, 2], [3, 4]]] | id_1 |
|[[[5, 6], [7, 8]]] | id_2 |
|[[[9,10], [11,12]]] | id_3 |
|[[[13,14], [15,16]]] | id_4 |
|[[[17,18], [19,20]]] | id_5 |
+---------------------+------+
# NOTE: There is a large number of Ids in each JSON string
# so hard coded getItem(0), getItem(1) ... is not valid solution
...
|[[[1000,1001], [10002,1003 ]]] | id_100000 |
+-------------------------------+-----------+
解决方案
地图列的一个explode
将完成这项工作:
import pyspark.sql.functions as F
df.select(F.explode('json').alias('id', 'json')).show()
+----+--------------------+
| id| json|
+----+--------------------+
|id_1| [[1, 2], [3, 4]]|
|id_2| [[5, 6], [7, 8]]|
|id_3| [[9, 10], [11, 12]]|
|id_4|[[12, 14], [15, 16]]|
|id_5|[[17, 18], [19, 10]]|
+----+--------------------+
要在上一个问题中实现其他所需的输出,您可以再爆炸一次。这次你分解数组列,它来自地图的值。
df.select(
F.explode('json').alias('id', 'json')
).select(
'id', F.explode('json').alias('json')
).select(
'id', 'json.*'
).show()
+----+---+---+
| id| a| b|
+----+---+---+
|id_1| 1| 2|
|id_1| 3| 4|
|id_2| 5| 6|
|id_2| 7| 8|
|id_3| 9| 10|
|id_3| 11| 12|
|id_4| 12| 14|
|id_4| 15| 16|
|id_5| 17| 18|
|id_5| 19| 10|
+----+---+---+
推荐阅读
- sqlite - 如何在 SQLite 中连接 json 数组对象值
- python - 多个序列的汉明距离矩阵
- python - 如何从 AWS Glue Python Shell 连接到 RDS 实例?
- java - 创建 EJB 提供程序 javax.persistence.PersistenceContext.synchronization()Ljavax/persistence/SynchronizationType
- python - 如何保留列表中的某些元素?
- python - 每次抓取后如何捕获“finish_reason”
- oracle - 使用 oracle cdc 时出现可写操作错误
- javascript - 如何使用 php for 循环创建 FilePond 实例,并使用插件
- c# - 错误:无法解析模块`api-ecommerce`
- jquery - 如何在不使用 Jquery 更改字体图标的情况下更改按钮名称