首页 > 解决方案 > NameError:名称“split”未使用 Spark 定义

问题描述

我一直在用 Spark 处理一个大数据集。上周,当我运行以下代码行时,它运行良好,现在它抛出一个错误:NameError: name 'split' is not defined。有人可以解释为什么这不起作用,我该怎么办?名称拆分未定义...我应该定义方法吗?它是我应该导入的依赖项吗?文档没有说我必须导入任何东西才能使用 split 方法。下面的代码。

test_df = spark_df.withColumn(
  "Keywords", 
   split(col("Keywords"), "\\|")
)

标签: apache-sparkpysparksplitpyspark-sql

解决方案


您可以使用pyspark.sql.functions.split(),但您首先需要导入此函数:

from pyspark.sql.functions import split

最好只显式导入您需要的功能。不要这样做from pyspark.sql.functions import *


推荐阅读