python - 如何从pyspark中的多个列表制作火花数据框?
问题描述
我正在使用 pyspark 并有多个这样的列表:
A = [5, 2, 3, 24, 1, ....]
B = ["Jim", "Bob", "Tyler", ....]
C = [5, 6,5, 5, 5, ....]
我希望数据框有 3 列(每个列表为一列)。我怎么能用 pyspark 做到这一点?
解决方案
@James Flanagin 产生的链接可能是最好的,但是这种方法不在那个答案中,并且在某些场景中很有用。
这是我创建 pyspark 数据框的首选方式。在对特定数据进行单元测试时特别有用。
注意嵌套Row
对象的使用。
from pyspark.sql import Row
df =spark.sparkContext.parallelize([
Row(user_jid='ryan_123',
timestamp="2018-08-01T00:00:00.111Z",
common_data=Row(platform='android')),
]).toDF()
推荐阅读
- r - 如何在 R 中使用 sf 操作 shapefile 多边形的几何形状
- discord - 如何在将特定角色分配给例如 20 人时自动锁定频道
- python - 我的问题是关于 python 中的字符串切片
- flutter - Flutter Web 滚轮在 Firefox 上缓慢滚动
- python - txt 文件排序(每行中的键:值) - '\n' 的问题
- wordpress - 在 docker 容器中自定义 Wordpress (WP) 主题
- angular - 单元测试 Angular 11 服务存根问题
- c - 如何在 Ada 中读取 C Void 指针?
- r - Using "contain" function with two arguments in R
- postgresql - pg_dump 错误“bash:/usr/bin/pg_dump:没有这样的文件或目录”