python - Transformer 的输入和输出分别是什么？

我在这里对变压器的谷歌实施有疑问。

在train_step(input, tar)函数中：inp维度是一个 256*40 的张量，转换器返回一个 256*39*8089 的张量。每一行是inp一个句子吗？我希望 Transformer 能够获取一批句子（一个 batch_size 的 2D 矩阵，其中每一行都是一个单词）并立即计算注意力权重和输出，然后将它们传递给解码器（参见此处。）。但是，我看不到在代码中实现了这一点。
在train_step(input, tar)函数中：“预测”是一个 256*39*8089 张量。是[批量大小，句子中的最大单词数，目标词汇量]？当这种格式与 [256 * 39] 的 ```tar_real`` 不同时，loss_function 如何计算损失？
In def evaluate(inp_sentence)：为什么在每次迭代中它都会向 Transformer 发送整个编码器输入？我期望的是编码器计算注意力权重并输出一次，然后在 for 循环中我们发送注意力的输出和到目前为止的预测。

谢谢

标签： pythontensorflownlptransformer