r - R-Text挖掘:用德语替换缩写、数字和符号
问题描述
我想替换文本中的缩写、数字和符号。由于我的文字是德语而不是英语,因此我在转换它时遇到了问题。
我试过了:
review_text <- replace_abbreviation(review_text)
review_text <- replace_number(review_text)
review_text <- replace_symbol(review_text)
但这仅适用于英文文本,不适用于德语。我应该补充什么,该功能也适用于德语?
解决方案
qdap 和 qdap 相关软件包仅用于英语。如果你想使用带有 ümlauts 和所有东西的德语文本,像 quanteda 和 udpipe 这样的包可以处理这个问题。但它们不处理缩写和符号。现在replace_symbol
功能很容易调整,只需检查功能,复制代码以创建自己的功能,并将英文翻译替换为德文翻译。
该replace_abbreviation
函数指向一个替换表,其中存储了相应值的缩写。您需要为德语创建自己的表。
最大的问题是将数字转换为文本。这对于每种语言都不同,并不是真正在线提供的。搜索这个往往会导致将数字转换为 Excel 中的文本。但是如果你会读python,你可以将python函数翻译成R(或使用reticulate)来解决这个问题。请参阅此链接到 Github 上的 python 库,该库可以为包括德语在内的几种语言执行此操作。但我不确定这是否可以在文本挖掘上下文中使用。
推荐阅读
- c# - cs5001 错误程序“a.out”不包含适合入口点的静态“main”方法
- javascript - 部分字符串搜索和突出显示 - React Native
- r - 导入 R:具有重复节点的 XML 数据
- pytorch - 使用pytorch DistributedDataParallel进行元学习,排名变化时结果会变化?
- c# - C# 需要帮助将变量放入方法中
- swift - Swift 中的可变 C 字符串
- python - 如何编码具有高基数的分类特征?
- jolt - 在 Jolt 中合并列表时进行空检查
- java - 如何在javafx中的不同类之间切换场景?
- ios - SwiftUI 可观察对象返回陈旧数据