nlp - 什么是“原始”skip-gram 模型？

我常见的skip-gram模型是一个带有隐藏投影/嵌入层的3层神经网络。嵌入层具有嵌入权重矩阵，最终将是语料库中单词的嵌入向量。softmax 层（输出层）也有一个权重矩阵，它不直接表示任何单词。在这里，我将此模型称为 skip-gram模型 1。

我在看书。书中提到有一个原始的skip-gram算法，它与上面的不同。在这里，我将这个“原始”skip-gram 模型称为 skip-gram模型 2。根据这本书，

本书到目前为止讨论的skip-gram算法实际上是对Mikolov等人在2013年发表的原始论文中提出的原始skip-gram算法的改进。在本文中，该算法没有使用中间隐藏层来学习表示。相比之下，原始算法使用两个不同的嵌入或投影层（图 4.1 中的输入和输出嵌入），并定义了从嵌入本身派生的成本函数：

我的第一个问题是在哪里可以找到“原始论文”？在向量空间中单词表示的有效估计论文中，skip-gram 模型似乎是模型 1，而不是上面的原始模型 2。

在一些讨论中，人们说 softmax 归一化计算向量相似度。例如，在mbatchkarov 的回答中，他对 softmax 计算给出了解释：

分子基本上是单词 c（上下文）和 w（目标）单词之间的相似度。分母计算所有其他上下文 c1 和目标词 w 的相似度。

第二个问题：那是“原始”的skip-gram模型2吗？因为在常见的 skip-gram 模型 1 中，输出层的权重只是神经网络的权重，而不是单词的向量表示。

标签： nlpword2vec