text - 注意力网络是如何工作的?
问题描述
最近我正在阅读 Attention is all you need paper,在阅读过程中我发现了一个关于理解注意力网络的问题,如果我忽略它背后的数学。谁能通过一个例子让我理解注意力网络?
解决方案
本教程说明了 Transformer 中的每个核心组件,绝对值得一读。
直观地说,注意力机制试图根据注意力函数找到“相似”的时间步长(例如,您只需要注意力中的投影+余弦相似度),然后使用相应计算的权重和先前的表示来计算新的表示。
推荐阅读
- javascript - Vue 不会更新 for 循环中数组更改的 props 数据
- javascript - 将所有状态和道具传递给孩子们反应
- angular - ES6 的 Polyfill 不为 IE11 提供 uint8array.join
- microsoft-cognitive - QnAMaker Preview 订阅的配额可以提高或取消吗?
- javascript - 如何在javascript中为地图函数创建对象?
- git - gh-pages 没有发布什么问题
- arrays - WP_Query - foreach 数组
- postgresql - 生成按列分组的值的直方图
- angular - 生成新组件时,app.module.ts 找不到新模块
- android - Android NDK为不同的arch构建tcpdump