nlp - 如何评估使用 Rouge 指标的黄金摘要生成的自动摘要?
问题描述
我正在开发一个自动摘要系统,我想用我的黄金摘要评估我的输出摘要。对于每种情况,我有多个不同长度的摘要。所以我在这里有点困惑。我的问题是我应该如何用这些黄金总结来评估我的总结。我应该用每个黄金总结评估我的,然后平均结果还是假设黄金总结的联合作为黄金总结,然后用它评估我的?
先感谢您
解决方案
ROUGE 度量将您的摘要与所有参考摘要进行比较。
例如,ROUGE-N 是根据您的摘要和每个参考摘要之间的相似 n-gram 计数的总和除以所有参考摘要中出现的 n-gram 总数来计算的。
这篇关于 ROUGE 的论文将对您有所帮助。
推荐阅读
- php - 试图在 codeignitor 中获取非对象的属性?
- javascript - 具有多个 REST API 的 JavaScript 控制流?
- spring - 以编程方式使用 Eureka 客户端问题 - 已完成 DiscoveryClient 的关闭
- mysql - 如何替换 WHERE 子句中的 WHERE IN 选项以减少请求的执行时间?
- python - 无法使用 pyhive 连接到 hive
- android - android.os.CancellationSignal.isCanceled() 调用 android.os.CancellationSignal.cancel() 后返回 false
- php - 数据迁移工具问题(magento 1.9 到 magento 2.3)
- mysql - INSERT INTO 的 sql 在一个条件下分支到两个表?
- c# - 指向 Google 搜索的链接在 IE 中引发错误请求 (400)
- javascript - 如何合理化代码以便为 openlayers 代码添加样式