nlp - 词性标注:已知词和未知词有什么区别?
问题描述
我试图了解本文的结果评估表(表1 )。
报告了三种不同的精度overall
,unknown words (UW)
、known words (KW)
和percentage of unknown words (% unk.)
。
是known words
用于训练的数据吗?而且,unknown words
是用于测试和验证的数据吗?
总体准确度是多少?它是如何计算的?
生词的百分比是% unk.
多少?是测试集的百分比吗?
谢谢你。
解决方案
本文还有第二张表,比较清楚一点:
因此,已知单词是在训练中看到的单词(或者以前曾以某种方式看到的单词,例如在词典中)。KW 应该是标注器对这些词的准确度(当然是根据测试数据计算的)。另一方面,没有出现在训练数据中的词(未知词)对于标注者来说更难标注。因此,这些词的准确性较低。
如您所见,整体准确度是通过已知单词的准确度乘以它们的频率加上未知单词的准确度乘以它们的频率:overall = KW*(1 - %unk) + UW*(%unk)
(%unk 需要除以 100)。
对于第一张桌子来说,这在某种程度上是不正确的。我怀疑这是因为作者自己没有测量这些结果,因此计算这些测量值的方法不同。您可以尝试阅读原始论文以了解他们的计算。
推荐阅读
- swagger - How to tell OpenAPI to use context-root of application in it's URL
- php - PHP 使用另一个文件中 header.php 中定义的变量
- spring - Issue with Spring Cron job scheduling?
- c# - InvalidCastException for generic type
- function - 非 void 函数不返回任何东西
- rust - Why is cargo build cache invalidating?
- r - DoHeatmap 函数 Seurat - 数据框中的错误:参数暗示不同的行数
- reactjs - 反应钩子返回中的简单条件
- excel - 当 Y 位于 B 列或 C 列时,计算 A 列中 X 的数量
- r - 使用r中的雪包将不同的数据发送到不同的节点