apache-spark - NameError:名称“split”未使用 Spark 定义
问题描述
我一直在用 Spark 处理一个大数据集。上周,当我运行以下代码行时,它运行良好,现在它抛出一个错误:NameError: name 'split' is not defined。有人可以解释为什么这不起作用,我该怎么办?名称拆分未定义...我应该定义方法吗?它是我应该导入的依赖项吗?文档没有说我必须导入任何东西才能使用 split 方法。下面的代码。
test_df = spark_df.withColumn(
"Keywords",
split(col("Keywords"), "\\|")
)
解决方案
您可以使用pyspark.sql.functions.split()
,但您首先需要导入此函数:
from pyspark.sql.functions import split
最好只显式导入您需要的功能。不要这样做from pyspark.sql.functions import *
。
推荐阅读
- python - 在 Pyglet 中播放视频文件
- typescript - 打字稿:返回一个返回承诺类型定义的对象
- python - tkinter 标签重叠 (.place(),.pack())
- angular - 如果值发生变化,是否有可能记录事件?
- azure - 计时器触发器 Azure 功能停止工作,没有任何更改
- java - 无法从 EditText 获取文本
- c# - 如何使用 WebRequest C# 在没有 ssl 验证的情况下发送请求?
- python - 我如何在其他功能中使用 get_queryset()object 'list_object'
- sql - 检测包含除“,”和“\ n”以外的特殊字符的列 - Postgresql
- java - Docker 在 IntelliJ 项目设置中找不到我的 .java 文件