首页 > 解决方案 > 了解 ROUGE 与 BLEU

问题描述

我正在研究衡量文本摘要质量的指标。为此,我找到了这个 SO answer,其中指出:

Bleu 测量精度:机器生成的摘要中的单词(和/或 n-gram)有多少出现在人类参考摘要中。

Rouge 测量召回:人类参考摘要中的单词(和/或 n-gram)在机器生成的摘要中出现了多少。

虽然在SE的这个答案中我发现了这个:

ROUGE-n recall=40% 表示参考摘要中 40% 的 n-gram 也出现在生成的摘要中。

ROUGE-n 精度=40% 意味着生成的摘要中 40% 的 n-gram 也出现在参考摘要中。

ROUGE-n F1-score=40% 更难解释,就像任何 F1-score 一样。

这是矛盾的。听起来Rouge-Precision等于BLEURouge-Recall等于SO answer中的陈述。Rouge-Precision 是否与实现 BLEU 的 BLEU 相同?

论文中还提到:

很明显,ROUGE-N 是一个与召回相关的度量,因为等式的分母是参考摘要侧出现的 n-gram 数量的总和。一种密切相关的度量,BLEU,用于机器翻译的自动评估,是一种基于精度的度量。

我不明白这一点,因为(至少)胭脂返回精度召回值。有人可以澄清一下吗?谢谢!

标签: pythonnlptext-processingrougebleu

解决方案


推荐阅读