首页 > 解决方案 > 无法运行多个 SparkContexts Pyspark filter() 使用 isin() 过滤停用词的应用程序

问题描述

对于这个 PySpark,我正在寻找想法并验证“过滤器”的逻辑用法。

寻找有关过滤停用词的单词卡盘的建议。

我的第一步是阅读 CSV。然后使用 (import re) 将 split() 分成单词块。然后将停用词应用于过滤器(~storm_word_chunks.isin(stopwords))。过滤器的使用对 x.isin() 是否正确?

在 sqlContext.spark.createDataFrame() 运行之前,我们应该定义 sqlContext,我必须首先需要类似:sc = SparkContext("local", "first app")

继从...导入

from pyspark.context import SparkContext

sc = SparkContext("local", "first app")
df = spark.read.csv("StormEvents.csv")
storm_word_chunks = sc.spark.createDataFrame(df.split()))    
stopwords = ["i", "me", "my", "myself",...]    
dfStorm_words = filter(~storm_word_chunks.isin(stopwords))

现在,当它运行时,我得到一个 ValueError: Cannot run multiple SparkContexts are once;由 GetOrCreate() 创建的现有 SparkContexts...

好的,那么如何解决这个 SparkContext?

标签: pysparkapache-spark-sqlpyspark-dataframes

解决方案


推荐阅读