首页 > 解决方案 > 在 R 中为主题建模预处理文本时得到奇怪的字符

问题描述

我正在准备stm在西班牙语新闻文章的大型数据框中运行的文档。使用该函数prepDocuments时,我注意到术语矩阵出现了一些奇怪的“词汇”(“\U0001d45d),如下面的代码所示。

这是我的代码

#Preparing the documents

out <- prepDocuments(to_stm$documents, to_stm$vocab, to_stm$meta,
                     lower.thresh = 1, upper.thresh = 8677, verbose = TRUE)

#This is what I get when I inspect some of the out$vocab
    > out$vocab[60:95]
 [1] "\U0001d45d\U0001d450\U0001d452\U0001d459\U0001d462\U0001d459\U0001d44e\U0001d45f"    "\U0001d45d\U0001d450\U0001d452\U0001d459\U0001d462\U0001d459\U0001d44e\U0001d45fel"  "\U0001d45d\U0001d452\U0001d45f\U0001d460\U0001d45c\U0001d45b\U0001d44e"     "\U0001d45d\U0001d452\U0001d45f\U0001d460\U0001d45c\U0001d45b\U0001d44e\U0001d460"    "\U0001d45d\U0001d453\U0001d456\U0001d457\U0001d45c"       "\U0001d45d\U0001d456"          "ª"          
 [8] "à"           "a4"          "a6"          "aa"          "aaa"         "aarak"       "ab"         
[15] "abaco"       "abad"        "abadía"      "abajo"       "abalanzó"    "abaleados"   "abanderada" 
[22] "abanderadas" "abanderado"  "abanderados" "abanderar"   "abanderó"    "abandona"    "abandonaba" 
[29] "abandonaban" "abandonada"  "abandonadas" "abandonado"  "abandonados" "abandonamos" "abandonan"  
[36] "abandonando"

我试图从我的数据框中过滤或子集这些,但我无法找到它们。知道会发生什么吗?它似乎与编码有关,但我是 R 新手,所以我真的不知道编码是如何工作的。

我没有分享我的数据样本,因为数据框由 17.000 篇文章组成,所以我无法猜测哪些文章包含这些奇怪的字符。

标签: rcharacter-encodingtext-processingdata-cleaning

解决方案


推荐阅读