python - 是否可以在 PySpark 中对 DataFrame 进行去标记化?
问题描述
我正在使用 app.zelp.com 来执行 NLP。在标记化和删除停用词之后,我想对剩余的单词进行去标记化并导出到 csv。那可能吗?
%python
# Start Spark session
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("StopWords").getOrCreate()
from pyspark.ml.feature import Tokenizer, StopWordsRemover
from pyspark import SparkFiles
url ="myamazon s3 url"
spark.sparkContext.addFile(url)
df = spark.read.csv(SparkFiles.get("myfile.csv"), sep=",", header=True)
# Tokenize DataFrame
review_data = Tokenizer(inputCol="Text", outputCol="Words")
# Transform DataFrame
reviewed = review_data.transform(df)
# Remove stop words
remover = StopWordsRemover(inputCol="Words", outputCol="filtered")
newFrame = remover.transform(reviewed)
final = newFrame.select("filtered")
我想组合剩余的单词并导出到 csv。可能吗?
解决方案
您可以考虑使用 Spark-NLP Tokenizer 进行标记,然后使用 TokenAssembler 组装回标记,
https://nlp.johnsnowlabs.com/docs/en/transformers#tokenassembler-getting-data-reshape
阿尔贝托。
推荐阅读
- azure-sqldw - CREATE EXTERNAL TABLE AS SELECT 语句失败
- angular - 类型 LeadPage(Module) 是 2 个模块声明的一部分
- pelican - 无法修改默认(简单)主题
- javascript - 从节点排序字母数字 li
- flutter - 如何以编程方式关闭颤振可关闭的小部件?
- c++ - 未定义的对clang中的析构函数的引用
- html - 如何处理colspan
- node.js - 在启动时自动运行 NodeJS 应用程序
- python - Python 脚本可以手动执行,但不能使用 Crontab
- python - Catalina OS 更新后的 Jupyter 内核错误(Anaconda 修复后)