阅读论文笔记《Efficient Estimation of Word Representations in Vector Space》

2025/4/20 21:27:48 来源：https://blog.csdn.net/si_ying/article/details/145638948 浏览: 次关键词：阅读论文笔记《Efficient Estimation of Word Representations in Vector Space》

这篇文章写于2013年，对理解 word2vec 的发展历程挺有帮助。

本文仅适用于 Word2Vect 的复盘

引言

这篇论文致力于探索从海量数据中学习高质量单词向量的技术。当时已发现词向量能保留语义特征，例如 “国王 - 男人 + 女人≈女王”。论文打算借助该特性，提出新的词向量表示方法，进一步提高词向量质量，并探究训练时间、准确性与向量维度、数据量之间的关联。

此前，已有不少利用神经网络语言模型 NNLM 生成词向量的研究，其中部分研究发现，简单模型展现出了学习词向量的能力。本文从中获得启发，决定探索简单神经网络结构，期望在降低计算复杂度的同时，高效地从大规模数据中学习高质量词向量。

模型架构

首先将模型的计算复杂度定义为需要训练的参数的数量。

有两个目的：1、最大化准确度；2、最小化计算复杂度

论文基于前馈神经网络语言模型（NNLM）进行了改善。
NNLM 包含输入层、映射层、隐藏层和输出层，每轮训练的计算复杂度为：
在这里插入图片描述
这里主要是 $H\times V$ 这一项占主导，也就是 $V$ 这个值。论文使用了已有方法分层 softmax 对这部分进行了优化。这样一来，变成了 $N\times D\times H$ 进行主导，为了优化这部分，论文去掉了隐藏层，这样模型的复杂度就很大程度上取决于softmax归一化的效率了。

作为 NNLM 的改进，RNNLM 考虑了可变上下文长度，利用 RNN 来处理。RNNLM 由输入层、隐藏层和输出层这三层构成，相应每次训练的计算复杂度为：
在这里插入图片描述
其中词向量的维度与隐藏层维度相同。 $H\times V$ 仍然可以使用分层 softmax 来优化。这样一来，复杂度的优化集中于 $H\times H$ 。