摘要:
表示学习是机器学习中通过浅层的神经网络将具有关联关系的信息映射到低维度向量空间中。词表示学习的目标是将词语与其上下文词语的关系映射到低维度的表示向量空间中,而网络表示学习的目标是将网络节点及上下文节点之间的关系映射到低维度的表示向量空间中。词向量是词表示学习的结果,而节点表示向量是网络表示学习的结果。DeepWalk通过随机游走策略获取网络节点上的游走序列作为word2vec模型中的句子,之后通过滑动窗口获取节点对输入到神经网络中进行训练,而word2vec和DeepWalk底层所采用模型和优化方法是相同的,即Skip-Gram模型和负采样优化方法,在word2vec和DeepWalk中负采样的Skip-Gram模型称为SGNS。现有研究结果表明,基于SGNS模型实现的词表示学习和网络表示学习算法均为隐式地分解目标特征矩阵。有学者提出基于单词词频服从Zipf定律和网络中节点度服从幂律分布,认为网络中的随机游走序列等同于语言模型中的句子,但是仅仅基于它们服从幂律分布的理由,来判断句子等同随机游走序列是不充分的。因此,基于SGNS隐式分解目标特征矩阵的理论和依据,设计了2个对比实验,利用奇异值分解和矩阵补全方法分别在3个公共数据集上做节点分类任务,通过实验证实了句子和随机游走序列的等同性。
孙燕, 孙茂松, 赵海兴, 冶忠林, . 表示学习中句子与随机游走序列等价性的一种新证明[J]. 计算机工程与科学.
SUN Yan, SUN Mao-song, ZHAO Hai-xing, YE Zhong-lin, .
A new proof of the equivalence between random walk
sequences and sentences in representation learning
[J]. Computer Engineering & Science.