machine-learning - Transformer 模型输出中的位置编码会发生什么变化？

问题描述

我一直在学习新流行的 Transformer 模型，它可以用于序列到序列的语言应用程序。我正在考虑时间序列建模的应用，这不一定是语言建模。因此，我正在建模输出层可能不是概率，但可能是对时间序列下一个值的预测。

如果我考虑论文中提出的原始语言模型（参见图 1），我们会注意到位置编码应用于嵌入的输入数据，但是在输出中没有位置指示。输出只是给出了“下一个”时间步的价值概率。对我来说，这里似乎失去了一些东西。输出假定一个迭代过程，其中“下一个”输出只是下一个，因为它是下一个。然而，在输入中，我们觉得需要使用位置编码插入一些位置信息。我认为我们也应该对输出的位置编码感兴趣。有没有办法恢复它们？

如果我们考虑非均匀采样的时间序列数据，这个问题会变得更加明显。这真的是我感兴趣的。使用非均匀采样的时间序列作为输入并预测时间序列的“下一个”值会很有趣，我们还可以获得该预测的时间位置。这归结为以某种方式从该输出值中恢复位置信息。既然输入的位置编码是加到输入上的，那么如何从输出中提取这个位置信息就不是小事了，或许应该叫“位置解码”吧。

总而言之，我的问题是，输出中的位置信息会发生什么？它还在那里，但我只是想念它吗？此外，如果模型不能立即使用，是否有人看到恢复这些数据的直接方法？

谢谢

标签： machine-learningtime-seriesartificial-intelligencetransformer

machine-learning - Transformer 模型输出中的位置编码会发生什么变化？

问题描述

解决方案

推荐阅读