首页 > 解决方案 > 如何在 Spark 的 Dataframe 中使用现有列作为索引

问题描述

我正在将 python 代码“翻译”为 pyspark。我想使用现有列作为数据框的索引。我使用熊猫在python中做到了这一点。下面的一小段代码解释了我做了什么。感谢您的帮助。

df.set_index('colx',drop=False,inplace=True)
# Ordena index
df.sort_index(inplace=True)

我希望结果是一个以“colx”为索引的数据框。

标签: pythonpandasdataframepysparkapache-spark-sql

解决方案


将索引作为列添加到 pyspark 数据框并使用它

rdd_df = df.rdd.zipWithIndex()
df_index = rdd_df.toDF()
#and extract the columns
df_index = df_index.withColumn('colA', df_index['_1'].getItem("'colA"))
df_index = df_index.withColumn('colB', df_index['_1'].getItem("'colB"))

推荐阅读