接续前文

【NLP初级概念】 01-稀疏文档表示(第 1/30 部分)_无水先生的博客-CSDN博客

一、说明

在前文中,我们已经了解如何为文档创建像“TF-IDF”和“BoW”这样的稀疏向量,其维度对应于语料库词汇表中的单词(这个维度将是巨大的)。在这篇博客中,我们将看到如何使用降维技术以及重要的深度学习来解决这些问题。使用不同的技术,我们将提取称为嵌入(密集,短向量)的强大单词表示。与TFIDF或BoW不同,这些向量的长度在50-300的范围内。这些向量在每个NLP问题中都比稀疏向量工作得更好,因为单词的顺序/结构起着重要作用。所以相似含义的词有相似的表示。
例如:“轮船”和“舟”在稀疏向量表示中意味着两个不同的东西,但嵌入成功地捕获了这些词之间的相似性。有 2 个最流行和开源的嵌入模型 Word2Vec 和 GLoVe。word2vec 方法快速、高效训练,并且可通过静态代码和预训练嵌入轻松在线获得。

二、word2Vec

在本节中,我们将了解如何使用深度学习来创建单词嵌入。这些嵌入是如此强大,以至于女王的向量表示与 v(king) − v(man) + v(woman&#