r - ft_tokenizer 将单词标记为更低,我希望它保持原样
问题描述
我在 R 中将 ft_tokenizer 用于 spark 数据帧。它对每个单词进行标记并将其更改为更低,我希望单词采用它们最初的格式。
text_data <- data_frame(
x = c("This IS a sentence", "So is this")
)
tokenized <- text_data_tbl %>%
ft_tokenizer("x", "word")
tokenized$word
## [[1]]
## [[1]][[1]]
## [1] "this"
##
## [[1]][[2]]
## [1] "is"
##
## [[1]][[3]]
## [1] "a"
我想:
tokenized$word
## [[1]]
## [[1]][[1]]
## [1] "This"
##
## [[1]][[2]]
## [1] "IS"
##
## [[1]][[3]]
## [1] "a"
解决方案
我想这是不可能的ft_tokenizer
。从?ft_tokenizer
一个分词器,将输入字符串转换为小写,然后用空格分割。
所以它的基本功能是将字符串转换为小写并在我猜无法更改的空白处拆分。考虑做
text_data$new_x <- lapply(strsplit(text_data$x, "\\s+"), as.list)
这将提供与预期相同的输出,您可以从这里继续您的流程。
text_data$new_x
#[[1]]
#[[1]][[1]]
#[1] "This"
#[[1]][[2]]
#[1] "IS"
#[[1]][[3]]
#[1] "a"
#[[1]][[4]]
#[1] "sentence"
#[[2]]
#[[2]][[1]]
#[1] "So"
#[[2]][[2]]
#[1] "is"
#[[2]][[3]]
#[1] "this"
推荐阅读
- linux - 将数组(argv)传递给程序集 x64 中的系统调用
- c++ - 如果全局函数使用非局部变量,那么它是一个闭包是否正确?
- r - R:如何初始化空二叉树?
- python - 如何在 keras 中正确输出精度、召回率和 f1score?
- gtsummary - 如何使用 R 包“gtsummary”在汇总表中生成 t 值、F 值或卡方?
- owasp - 如何在 ZAP 中启用“流媒体模式”?
- java - 如何在 RecyclerView OnClickListener 中管理多个位置
- ios - AWS Chime:无服务器端点安全
- ios - 如何删除 UICollectionView Flow 布局大小中的单元格空间?
- amazon-s3 - 是否可以使用 Spring Cloud AWS 连接到本地 S3 兼容存储?