python - 如何将pyspark数据框列转换为字典
问题描述
我有一个包含 2 列的数据框。
Col1: String, Col2:String.
我想创建一个像{'col1':'col2'}
.
例如,下面的 csv 数据:
var1,InternalCampaignCode
var2,DownloadFileName
var3,ExternalCampaignCode
必须成为:
{'var1':'InternalCampaignCode','var2':'DownloadFileName', ...}
数据框有大约 200 条记录。
请让我知道如何实现这一目标。
解决方案
以下应该可以解决问题:
df_as_dict = map(lambda row: row.asDict(), df.collect())
请注意,这将生成一个字典列表,其中每个字典代表 pyspark 数据帧的单个记录:
[
{'Col1': 'var1', 'Col2': 'InternalCampaignCode'},
{'Col1': 'var2', 'Col2': 'DownloadFileName'},
{'Col1': 'var3', 'Col3': 'ExternalCampaignCode'},
]
推荐阅读
- javascript - 寻找用于简单表格编辑的 localStorage 解决方案(包括页面 HTML)
- python - Pytest:ModuleNotFoundError:没有名为“src”的模块
- javascript - 如何使用带有网格行和网格列更改的过渡
- javascript - JavaScript 循环中未考虑 Google-Sheet 的第一行
- c - 如何获取大文件的 zip_stat_t
- vue.js - 事件不会通过路由器链接发出
- kotlin - 比较 2 个不同列表中的相同值 - Kotlin
- html - 如何改变bootstrap分页的颜色
- r - 如何访问存储为 R 列表中元素的函数?
- angular - 如何在帐户设置组件弹出窗口中包含相同的注册表单?