首页 > 解决方案 > 在pyspark中转换类别类型的数据框列

问题描述

我有一个数据框 df ,我想将一些列转换为类别类型。使用熊猫我可以这样做:

    for col in categorical_collist:
        df[col] = df[col].astype('category')

我想在 pyspark 中进行列转换。我该怎么做?

我尝试在 pyspark 中使用以下代码。但它在操作过程中没有给出我预期的输出。

from pyspark.sql.types import StringType
for col in categorical_collist:
    df = df.withColumn(col, df[col].cast(StringType()))

标签: pandastypespysparkapache-spark-sql

解决方案


推荐阅读