首页 > 解决方案 > 是否可以在 PySpark 中对 DataFrame 进行去标记化?

问题描述

我正在使用 app.zelp.com 来执行 NLP。在标记化和删除停用词之后,我想对剩余的单词进行去标记化并导出到 csv。那可能吗?

%python
# Start Spark session
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("StopWords").getOrCreate()
from pyspark.ml.feature import Tokenizer, StopWordsRemover 
from pyspark import SparkFiles
url ="myamazon s3 url"
spark.sparkContext.addFile(url)
df = spark.read.csv(SparkFiles.get("myfile.csv"), sep=",", header=True)

# Tokenize DataFrame
review_data = Tokenizer(inputCol="Text", outputCol="Words")
# Transform DataFrame
reviewed = review_data.transform(df)
# Remove stop words
remover = StopWordsRemover(inputCol="Words", outputCol="filtered")
newFrame = remover.transform(reviewed)

final = newFrame.select("filtered")

我想组合剩余的单词并导出到 csv。可能吗?

标签: pythonapache-sparkpysparknlptokenize

解决方案


您可以考虑使用 Spark-NLP Tokenizer 进行标记,然后使用 TokenAssembler 组装回标记,

https://nlp.johnsnowlabs.com/docs/en/transformers#tokenassembler-getting-data-reshape

阿尔贝托。


推荐阅读