首页 > 解决方案 > 正则表达式作为字典从 1 到 6 R 中提取数字

问题描述

我想创建一个正则表达式函数,它接受代码并将其设置为参考字典以解析到语料库并将它们设置为 TDM 及其出现

   corpus<- Corpus(DirSource(path))     
dictionary <- regexpr(("") , corp)
 regular <- DocumentTermMatrix(corp, control = list(dictionary = dictionary))

任何人都可以帮助我解决这个问题

标签: rregexdictionaryreferencetext-extraction

解决方案


您可以使用此正则表达式提取 10000 到 600000 之间的整数:

\b(?:[1-5]?\d{5}|600000)\b

推荐阅读