首页 > 解决方案 > 在 pyspark 中使用 RDD 从字典创建数据框

问题描述

我有一本名为“Word_Count”的字典,键代表单词,值代表文本中的数字单词。我的目标是将其转换为具有两列单词和计数的数据框

items = list(Word_Counts.items())[:5]
items

输出:

[('Akdeniz’in', 14), ('en', 13287), ('büyük', 3168), ('deniz', 1276), ('festivali:', 6)]

当我使用 sc.parallelize 建立一个 RDD 时,我意识到它会删除所有值,并且在我创建 table 时只保留键,它只包含来自键。请让我知道如何使用 RDD 从字典中建立数据框

rdd1 = sc.parallelize(Word_Counts)
Df_Hur = spark.read.json(rdd1)
rdd1.take(5)

输出:

['Akdeniz’in', 'en', 'büyük', 'deniz', 'festivali:']

Df_Hur.show(5)

输出:

+---------------+ 
|_corrupt_record|
+---------------+ 
| Akdeniz’in|
| en| 
| büyük| 
| deniz| 
| festivali:| 
+---------------+

我的目标是:

   word       count
  Akdeniz’in    14
  en            13287
  büyük         3168
  deniz         1276
  festivali:    6

标签: pythonapache-sparkpyspark

解决方案


word_count.items()您可以直接喂给parallelize

df_hur = sc.parallelize(word_count.items()).toDF(['word', 'count'])

df_hur.show()

>>>
+----------+-----+
|      word|count|
+----------+-----+
|Akdeniz’in|   14|
|        en|13287|
|     büyük| 3168|
|     deniz| 1276|
|festivali:|    6|
+----------+-----+

推荐阅读