python - 了解 ROUGE 与 BLEU
问题描述
我正在研究衡量文本摘要质量的指标。为此,我找到了这个 SO answer,其中指出:
Bleu 测量精度:机器生成的摘要中的单词(和/或 n-gram)有多少出现在人类参考摘要中。
Rouge 测量召回:人类参考摘要中的单词(和/或 n-gram)在机器生成的摘要中出现了多少。
虽然在SE的这个答案中我发现了这个:
ROUGE-n recall=40% 表示参考摘要中 40% 的 n-gram 也出现在生成的摘要中。
ROUGE-n 精度=40% 意味着生成的摘要中 40% 的 n-gram 也出现在参考摘要中。
ROUGE-n F1-score=40% 更难解释,就像任何 F1-score 一样。
这是矛盾的。听起来Rouge-Precision等于BLEU而Rouge-Recall等于SO answer中的陈述。Rouge-Precision 是否与实现 BLEU 的 BLEU 相同?
论文中还提到:
很明显,ROUGE-N 是一个与召回相关的度量,因为等式的分母是参考摘要侧出现的 n-gram 数量的总和。一种密切相关的度量,BLEU,用于机器翻译的自动评估,是一种基于精度的度量。
我不明白这一点,因为(至少)胭脂返回精度和召回值。有人可以澄清一下吗?谢谢!
解决方案
推荐阅读
- vb.net - 将大整数转换为十六进制字符串?抛出异常,为什么?
- react-native - React Native 功能组件 navigationOptions headerRight 未设置
- mysql - 如何从用户输入表中的动态列名?
- react-native - 使用不记名身份验证获取时获得空承诺
- python - Selenium 无法点击 ajax 按钮
- manageiq - 可以在 Linux 或 Windows 环境中创建 MIQ 开发设备吗?
- excel - 如何使共享文件夹中的Excel工作簿具有只读权限?
- vb.net - 用于更新控制台应用程序的应用程序设置的 UI
- reactjs - 如何使用 ReactJS 在 CKEditor 5 中使用 MathType 插件?
- c# - 如何获得列表的通用 T
字段并将其用作另一个构造函数的泛型?