首页 > 解决方案 > R-Text挖掘:用德语替换缩写、数字和符号

问题描述

我想替换文本中的缩写、数字和符号。由于我的文字是德语而不是英语,因此我在转换它时遇到了问题。

我试过了:

review_text <- replace_abbreviation(review_text)

review_text <- replace_number(review_text)

review_text <- replace_symbol(review_text)

但这仅适用于英文文本,不适用于德语。我应该补充什么,该功能也适用于德语?

标签: rreplacenumberstext-miningabbreviation

解决方案


qdap 和 qdap 相关软件包仅用于英语。如果你想使用带有 ümlauts 和所有东西的德语文本,像 quanteda 和 udpipe 这样的包可以处理这个问题。但它们不处理缩写和符号。现在replace_symbol功能很容易调整,只需检查功能,复制代码以创建自己的功能,并将英文翻译替换为德文翻译。

replace_abbreviation函数指向一个替换表,其中存储了相应值的缩写。您需要为德语创建自己的表。

最大的问题是将数字转换为文本。这对于每种语言都不同,并不是真正在线提供的。搜索这个往往会导致将数字转换为 Excel 中的文本。但是如果你会读python,你可以将python函数翻译成R(或使用reticulate)来解决这个问题。请参阅此链接到 Github 上的 python 库,该库可以为包括德语在内的几种语言执行此操作。但我不确定这是否可以在文本挖掘上下文中使用。


推荐阅读