首页 > 解决方案 > 如何评估使用 Rouge 指标的黄金摘要生成的自动摘要?

问题描述

我正在开发一个自动摘要系统,我想用我的黄金摘要评估我的输出摘要。对于每种情况,我有多个不同长度的摘要。所以我在这里有点困惑。我的问题是我应该如何用这些黄金总结来评估我的总结。我应该用每个黄金总结评估我的,然后平均结果还是假设黄金总结的联合作为黄金总结,然后用它评估我的?

先感谢您

标签: nlpsummarysummarizationrouge

解决方案


ROUGE 度量将您的摘要与所有参考摘要进行比较。

例如,ROUGE-N 是根据您的摘要和每个参考摘要之间的相似 n-gram 计数的总和除以所有参考摘要中出现的 n-gram 总数来计算的。

这篇关于 ROUGE 的论文将对您有所帮助。


推荐阅读