pyspark - 无法运行多个 SparkContexts Pyspark filter() 使用 isin() 过滤停用词的应用程序
问题描述
对于这个 PySpark,我正在寻找想法并验证“过滤器”的逻辑用法。
寻找有关过滤停用词的单词卡盘的建议。
我的第一步是阅读 CSV。然后使用 (import re) 将 split() 分成单词块。然后将停用词应用于过滤器(~storm_word_chunks.isin(stopwords))。过滤器的使用对 x.isin() 是否正确?
在 sqlContext.spark.createDataFrame() 运行之前,我们应该定义 sqlContext,我必须首先需要类似:sc = SparkContext("local", "first app")
继从...导入
from pyspark.context import SparkContext
sc = SparkContext("local", "first app")
df = spark.read.csv("StormEvents.csv")
storm_word_chunks = sc.spark.createDataFrame(df.split()))
stopwords = ["i", "me", "my", "myself",...]
dfStorm_words = filter(~storm_word_chunks.isin(stopwords))
现在,当它运行时,我得到一个 ValueError: Cannot run multiple SparkContexts are once;由 GetOrCreate() 创建的现有 SparkContexts...
好的,那么如何解决这个 SparkContext?
解决方案
推荐阅读
- javascript - Webextension 鼠标单击命令 API(鼠标单击快捷方式)?
- python - [:,:,::-1] 和 [:,:,:] 有什么区别
- python - Python 和 Pandas:使用函数替换文本
- c++ - makefile : 如何链接目标文件
- ruby - 我对此(初学者)示例代码有很多疑问
- android - android中setNotificationPolicy和setInterruptionFilter的区别
- c# - 带有输入参数的 MVC 存储过程并使用实体框架获取输出
- java - 我如何实现一个泛型类,该类在java中调用指定接口的静态方法
- perl - 在“uniq”之后的“排序”中出现“不是数字”错误
- c# - 如何确保在处理图像之前完成上传