r - 在 R 中为主题建模预处理文本时得到奇怪的字符
问题描述
我正在准备stm
在西班牙语新闻文章的大型数据框中运行的文档。使用该函数prepDocuments
时,我注意到术语矩阵出现了一些奇怪的“词汇”(“\U0001d45d),如下面的代码所示。
这是我的代码
#Preparing the documents
out <- prepDocuments(to_stm$documents, to_stm$vocab, to_stm$meta,
lower.thresh = 1, upper.thresh = 8677, verbose = TRUE)
#This is what I get when I inspect some of the out$vocab
> out$vocab[60:95]
[1] "\U0001d45d\U0001d450\U0001d452\U0001d459\U0001d462\U0001d459\U0001d44e\U0001d45f" "\U0001d45d\U0001d450\U0001d452\U0001d459\U0001d462\U0001d459\U0001d44e\U0001d45fel" "\U0001d45d\U0001d452\U0001d45f\U0001d460\U0001d45c\U0001d45b\U0001d44e" "\U0001d45d\U0001d452\U0001d45f\U0001d460\U0001d45c\U0001d45b\U0001d44e\U0001d460" "\U0001d45d\U0001d453\U0001d456\U0001d457\U0001d45c" "\U0001d45d\U0001d456" "ª"
[8] "à" "a4" "a6" "aa" "aaa" "aarak" "ab"
[15] "abaco" "abad" "abadía" "abajo" "abalanzó" "abaleados" "abanderada"
[22] "abanderadas" "abanderado" "abanderados" "abanderar" "abanderó" "abandona" "abandonaba"
[29] "abandonaban" "abandonada" "abandonadas" "abandonado" "abandonados" "abandonamos" "abandonan"
[36] "abandonando"
我试图从我的数据框中过滤或子集这些,但我无法找到它们。知道会发生什么吗?它似乎与编码有关,但我是 R 新手,所以我真的不知道编码是如何工作的。
我没有分享我的数据样本,因为数据框由 17.000 篇文章组成,所以我无法猜测哪些文章包含这些奇怪的字符。
解决方案
推荐阅读
- android - android studio 无法识别设备上当前安装的 apk(is)
- android - 如何在 Firebase 聊天应用中实现消息可见功能
- python - 如何仅从 excel 文件中过滤出那些具有我在代码中提到的特定单词的评论?
- java - 将 Float 添加到 long 会使值减小
- android - 画布旋转后更改 RectF 的坐标
- sql-server - 删除表前的 T-SQL 提示
- python - 使用 modin.pandas 应用更快的 pandas
- python - 分组列和计算
- c - 为什么不建议在 C 中使用指针进行数组访问
- android - 如何绘制圆角位图?