使用Word Embedding+Keras进行自然语言处理NLP

介绍：

one-hot：

pad_sequences:

建模:

介绍：

Word Embedding是一种将单词表示为低维稠密向量的技术。它通过学习单词在文本中的上下文关系，将其映射到一个连续的向量空间中。在这个向量空间中，相似的单词在空间中的距离也比较接近，具有相似含义的单词在空间中的方向也比较一致。
Word Embedding可以通过各种方法来实现，包括基于统计的方法（如Word2Vec和GloVe）和基于神经网络的方法（如Skip-gram和CBOW模型）。这些方法通常使用大量的文本语料库来学习单词的向量表示。
Word Embedding在自然语言处理任务中广泛应用，如文本分类、情感分析、机器翻译等。由于Word Embedding能够捕捉到单词之间的语义关系，使得计算机能够更好地理解和处理自然语言。

one-hot：

from tensorflow.keras.preprocessing.text import one_hot中的one_hot函数用于将文本数据进行one-hot编码。
在自然语言处理任务中，文本通常需要进行预处理和编码才能用于训练模型。其中，one-hot编码是一种常用的文本编码方式，它将每个单词映射到一个唯一的整数索引，并将索引表示为一个独热向量。独热向量是一个稀疏向量，只有一个元素为1，其余元素为0，该元素的位置对应着单词的索引。
通过使用one_hot函数，可以将文本数据中的单词转换为对应的整数索引，方便后续处理和模型训练。该函数接受两个参数：文本数据和词汇表大小。它会根据词汇表的大小，将文本数据中的每个单词映射到一个唯一的整数索引，并返回一个编码后的整数列表。这些整数可以用作模型的输入或特征表示。

### sentencessentences=['the glass of milk', 'the glass of juice', 'the cup of tea','I am a good boy', 'I am a good developer', 'understand the meaning of words', 'your videos are good',]### Vocabulary sizevoc_size=10000onehot_repr=[one_hot(words,voc_size) for words in sentences] print(onehot_repr)'''结果：[[1607, 1898, 6281, 9401], [1607, 1898, 6281, 3401], [1607, 6359, 6281, 2217], [7508, 378, 2733, 8693, 7438], [7508, 378, 2733, 8693, 5363], [8292, 1607, 4448, 6281, 8555], [1825, 3648, 3717, 8693]]'''

pad_sequences:

pad_sequences函数是用于将序列数据进行填充（Padding）或截断（Truncation）的方法。在自然语言处理任务中，文本通常是以序列的形式表示的，例如句子或文档中的单词序列。这些序列的长度可能不一致，为了在神经网络中进行处理，需要将它们转换为相同长度的序列。
pad_sequences函数可以根据指定的最大长度对序列进行填充或截断操作。如果序列长度小于最大长度，则会在序列的末尾添加特定的填充值（通常是0），使得序列长度与最大长度相同。如果序列长度大于最大长度，则会从序列的末尾进行截断，使得序列长度与最大长度相同。
填充或截断序列可以确保在输入神经网络之前，所有的序列具有相同的长度。这对于训练机器学习模型非常重要，因为神经网络需要一个固定长度的输入。此外，在进行批量训练时，将数据转换为相同长度的序列可以提高计算效率。

from tensorflow.keras.layers import Embeddingfrom tensorflow.keras.preprocessing.sequence import pad_sequencesfrom tensorflow.keras.models import Sequentialimport numpy as npsent_length=8embedded_docs=pad_sequences(onehot_repr,padding='pre',maxlen=sent_length)print(embedded_docs) '''结果：[[ 0000 1607 1898 6281 9401] [ 0000 1607 1898 6281 3401] [ 0000 1607 6359 6281 2217] [ 000 7508378 2733 8693 7438] [ 000 7508378 2733 8693 5363] [ 000 8292 1607 4448 6281 8555] [ 0000 1825 3648 3717 8693]]'''

建模:

dim=10model=Sequential()model.add(Embedding(voc_size,dim,input_length=sent_length))model.compile('adam','mse')model.summary()

使用Word Embedding+Keras进行自然语言处理NLP

介绍：

one-hot：

pad_sequences:

建模:

最新关注

热文推荐

LC3、MIPS32、RISC-V指令集架构整理

关于Twitch上的AI虚拟主播 neuro-sama

C进阶：结构体的内存对齐

52_Pandas处理日期和时间列（字符串转换、日期提取等）

关于java.io.UncheckedIOException: Cannot delete C:\Users\guo\AppData\Local\Temp\tomcat.8081问题

致我们曾经遇到过的接口问题

使用Word Embedding+Keras进行自然语言处理NLP

介绍：

one-hot：

pad_sequences:

建模:

相关文章

最新关注

热文推荐