machine-learning - Transformer 模型输出中的位置编码会发生什么变化?
问题描述
我一直在学习新流行的 Transformer 模型,它可以用于序列到序列的语言应用程序。我正在考虑时间序列建模的应用,这不一定是语言建模。因此,我正在建模输出层可能不是概率,但可能是对时间序列下一个值的预测。
如果我考虑论文中提出的原始语言模型(参见图 1),我们会注意到位置编码应用于嵌入的输入数据,但是在输出中没有位置指示。输出只是给出了“下一个”时间步的价值概率。对我来说,这里似乎失去了一些东西。输出假定一个迭代过程,其中“下一个”输出只是下一个,因为它是下一个。然而,在输入中,我们觉得需要使用位置编码插入一些位置信息。我认为我们也应该对输出的位置编码感兴趣。有没有办法恢复它们?
如果我们考虑非均匀采样的时间序列数据,这个问题会变得更加明显。这真的是我感兴趣的。使用非均匀采样的时间序列作为输入并预测时间序列的“下一个”值会很有趣,我们还可以获得该预测的时间位置。这归结为以某种方式从该输出值中恢复位置信息。既然输入的位置编码是加到输入上的,那么如何从输出中提取这个位置信息就不是小事了,或许应该叫“位置解码”吧。
总而言之,我的问题是,输出中的位置信息会发生什么?它还在那里,但我只是想念它吗?此外,如果模型不能立即使用,是否有人看到恢复这些数据的直接方法?
谢谢
解决方案
推荐阅读
- java - 如何正确旋转位图?
- c++ - opencv 无法打开 yuv422 图像,而 rawpixels.net 可以显示图像
- javascript - 如何将 jquery 代码转换为 Vue js
- r - 如何合并具有相同名称的行?
- angular - 你能帮我用角度的自定义 JSON 数据创建动态模板吗
- javascript - 我可以使用 react-redux 为不使用 react-redux 的应用程序实现第三方 npm 包吗?
- python-3.x - 如何计算熊猫数据框中每一列的 2 个相邻值的值之间的差异?
- android - 从另一个 Activity 访问位置权限
- javascript - Typescript,获取响应数据的特定属性
- php - Microsoft Graph SSO Azure AD 未将用户重定向到登录页面