一、说明

在前文中，我们已经了解如何为文档创建像“TF-IDF”和“BoW”这样的稀疏向量，其维度对应于语料库词汇表中的单词（这个维度将是巨大的）。在这篇博客中，我们将看到如何使用降维技术以及重要的深度学习来解决这些问题。使用不同的技术，我们将提取称为嵌入（密集，短向量）的强大单词表示。与TFIDF或BoW不同，这些向量的长度在50-300的范围内。这些向量在每个NLP问题中都比稀疏向量工作得更好，因为单词的顺序/结构起着重要作用。所以相似含义的词有相似的表示。
例如：“轮船”和“舟”在稀疏向量表示中意味着两个不同的东西，但嵌入成功地捕获了这些词之间的相似性。有 2 个最流行和开源的嵌入模型 Word2Vec 和 GLoVe。word2vec 方法快速、高效训练，并且可通过静态代码和预训练嵌入轻松在线获得。