首页 > 解决方案 > “常规”英语单词列表

问题描述

所以我找到了这三个资源:

我不介意在 479k 单词的列表中有诸如b和之类的u单词(我从未见过的单词),因为这包括超级晦涩的东西。但令我惊讶的是,维基词典中的常用词列表包括这些词:

b
be
bel
bl
bleu
bu
eu
l
lb
le
leu
lu
lub

此外,wiki 列表包括这些词!

lube
neg
tab

也就是说,wiki 列表中有很多我不会认为是“常规词”的词,还有很多 wiki 列表没有的“常规词”。

所以我的问题是,是否有一个“常规”单词列表可供在公共领域的网络上下载。常规,我只是指您通过阅读书籍等学习的单词,而不是这些单词leubl因为某些原因在 wiki 精选列表中。

这是一个自动完成组件。

标签: nlpword-list

解决方案


似乎您已经知道“常规”没有操作定义。这是因为您需要根据项目的需要自己定义它。表情符号是单词吗?如果您正在分析 twitter 数据,那么包含它们可能是有益的。

帮助您为项目定义“常规”的几个出发点是:

  • 一个频率度量(这个词在你的语料库中出现至少 XX% 的时间)
  • 来源之间的协议(出现在所有三个单词列表中的单词)
  • 人类判断(自己做,或使用 mturk 并询问“这是一个词,是还是不是?”)

推荐阅读