apache-spark-sql - 使用 Spark flatmap 展平嵌套数据,其中嵌套列表在 java 中以二进制形式存储
问题描述
我的 json 结构如下,我将在我的 Spark 数据框中接收到一行。
{
"id":"B07H3MVTSN",
"mid":44444,
"inner":{
"type1":[{
"cid":"B06XVVSLX8"
},
{
"cid":"B06XJ2JZ2Z"
},
{
"cid":"B06XJ2J12Z"
}
],
"type2":[{
"cid":"B06XVVSLX1"
},
{
"cid":"B06XJ2JZ22"
},
{
"cid":"B06XJ2J123"
}
]
}
}
该结构inner
以二进制形式存储在数据帧中。
如何使用 Spark dataframe.flatmap() 将上述 json 结构展平为以下结构?
For every element in type1 and type2, there will be a row as follows
cid type1id type2id mid
B06XVVSLX8 B07H3MVTSN 44444
B06XJ2JZ2Z B07H3MVTSN 44444
B06XJ2J12Z B07H3MVTSN 44444
B06XVVSLX1 B07H3MVTSN 44444
B06XJ2JZ22 B07H3MVTSN 44444
B06XJ2J123 B07H3MVTSN 44444
解决方案
推荐阅读
- r - 计算 R 中的重复协作
- python - 如何在 PySimpleGUI 中清除窗口
- django - 如何使用 Django REST 和 React.js 关系处理 CSRFToken 真实性?
- javascript - React Axios 从一个操作创建多个请求
- python - 使用 Selenium 启动 IE 后超时
- reactjs - 在 React 中提交表单后呈现错误消息
- swift - 滚动后为 UITableView 顶部的第一个可见单元格着色
- python - 破译 Python Mypy 报告
- javascript - 带有 readline nodejs 的 Sycn 输入
- python - 通过 Python 和 ruamel.yaml 模块编辑 YAML 文件