nlp - “常规”英语单词列表
问题描述
所以我找到了这三个资源:
我不介意在 479k 单词的列表中有诸如b
和之类的u
单词(我从未见过的单词),因为这包括超级晦涩的东西。但令我惊讶的是,维基词典中的常用词列表包括这些词:
b
be
bel
bl
bleu
bu
eu
l
lb
le
leu
lu
lub
此外,wiki 列表不包括这些词!
lube
neg
tab
也就是说,wiki 列表中有很多我不会认为是“常规词”的词,还有很多 wiki 列表没有的“常规词”。
所以我的问题是,是否有一个“常规”单词列表可供在公共领域的网络上下载。常规,我只是指您通过阅读书籍等学习的单词,而不是这些单词leu
,bl
因为某些原因在 wiki 精选列表中。
这是一个自动完成组件。
解决方案
似乎您已经知道“常规”没有操作定义。这是因为您需要根据项目的需要自己定义它。表情符号是单词吗?如果您正在分析 twitter 数据,那么包含它们可能是有益的。
帮助您为项目定义“常规”的几个出发点是:
- 一个频率度量(这个词在你的语料库中出现至少 XX% 的时间)
- 来源之间的协议(出现在所有三个单词列表中的单词)
- 人类判断(自己做,或使用 mturk 并询问“这是一个词,是还是不是?”)
推荐阅读
- scala - 如何使用主类选择对话框?
- google-apps-script - 从不是由 Google Apps 脚本创建的文件中获取元数据
- c++ - 如何从派生类的构造函数中正确访问这个基类变量?
- android - Android camera2 ImageReader导致冻结
- excel - 有条件地删除重复项
- revit-api - 我们可以在两个不同的 Ribbons 中创建相同名称的 PushButton 吗?
- c++ - 为什么我在这个 c++ 类中的重载 operator+ 不需要实现为 operator-?
- python - 尝试为卡片分配分值并在多个类别中获得最终分数
- sql-server - 无法使用 pyodbc 连接新创建的 SQL Server 数据库
- azure - Azure 机器人服务的 Directline 没有响应并被 CORS 策略阻止