首页 > 解决方案 > 注意力网络是如何工作的?

问题描述

最近我正在阅读 Attention is all you need paper,在阅读过程中我发现了一个关于理解注意力网络的问题,如果我忽略它背后的数学。谁能通过一个例子让我理解注意力网络?

标签: textnlptransformerattention-model

解决方案


教程说明了 Transformer 中的每个核心组件,绝对值得一读。

直观地说,注意力机制试图根据注意力函数找到“相似”的时间步长(例如,您只需要注意力中的投影+余弦相似度),然后使用相应计算的权重和先前的表示来计算新的表示。


推荐阅读