首页 > 解决方案 > Transformer 模型输出中的位置编码会发生什么变化?

问题描述

我一直在学习新流行的 Transformer 模型,它可以用于序列到序列的语言应用程序。我正在考虑时间序列建模的应用,这不一定是语言建模。因此,我正在建模输出层可能不是概率,但可能是对时间序列下一个值的预测。

如果我考虑论文中提出的原始语言模型(参见图 1),我们会注意到位置编码应用于嵌入的输入数据,但是在输出中没有位置指示。输出只是给出了“下一个”时间步的价值概率。对我来说,这里似乎失去了一些东西。输出假定一个迭代过程,其中“下一个”输出只是下一个,因为它是下一个。然而,在输入中,我们觉得需要使用位置编码插入一些位置信息。我认为我们也应该对输出的位置编码感兴趣。有没有办法恢复它们?

如果我们考虑非均匀采样的时间序列数据,这个问题会变得更加明显。这真的是我感兴趣的。使用非均匀采样的时间序列作为输入并预测时间序列的“下一个”值会很有趣,我们还可以获得该预测的时间位置。这归结为以某种方式从该输出值中恢复位置信息。既然输入的位置编码是加到输入上的,那么如何从输出中提取这个位置信息就不是小事了,或许应该叫“位置解码”吧。

总而言之,我的问题是,输出中的位置信息会发生什么?它还在那里,但我只是想念它吗?此外,如果模型不能立即使用,是否有人看到恢复这些数据的直接方法?

谢谢

变压器示意图

标签: machine-learningtime-seriesartificial-intelligencetransformer

解决方案


推荐阅读