【自然语言处理五-注意力其他–多头注意力&位置编码等】

自然语言处理五-self attention的其他问题（多头注意力&位置编码）等

多头注意力 multi-head attention
- 多头注意力的意义是什么？
- 多头注意力的运作流程
位置编码postion encoding

之前用四篇博客说明了注意力以及自注意力的运作流程，下面来介绍剩余点。
多头注意力、位置编码

多头注意力 multi-head attention

单头的注意力是这样的：

而多头的矩阵是这样的：

也就是说我们由输入生成的q k v矩阵是多组，上面的图就显示2头注意力的示意图。

多头注意力的意义是什么？

事物之间的关系，往往不止一种，多头就意味着多种不同类型的相关性

多头注意力的运作流程

单头的注意力的过程是这样的：

而多头的注意力，计算注意力分数、softmax等操作都是相同的，只不过会有两次这样的操作，最终每一个输入对应的bⁱ会生成多个，以两头注意力为例子：
第一次生成b^i,1，第二次生成b^i,2,下面是示例了生成b^i,2的过程：

而注意力层最终的输出是将(b^i,1,b^i,2)又做了一次矩阵乘法

整体注意力层对外的输出的bⁱ就整合了多头(b^i,1,b^i,2)的信息了。

位置编码postion encoding

前面讲的自注意力其实缺少了一部分，没有任何关于位置的信息。
但是在自然语言处理领域，位置信息有时候很重要，比如词性识别的时候，动词在开头的概率一般很小。因此self attention中又加入了位置信息编码：
postion encoding，具体的做法就是在输入加上一个位置信息向量eⁱ，Q K V的信息中就包括了位置的信息，如下图：

这个eⁱ的生成有多重方法：
1.transformer论文中用sin和cos的函数

2.手动设置
3.其他。在其他的论文中还有很多种做法

【自然语言处理五-注意力其他–多头注意力&位置编码等】

自然语言处理五-self attention的其他问题（多头注意力&位置编码）等

多头注意力 multi-head attention

多头注意力的意义是什么？

多头注意力的运作流程

位置编码postion encoding

最新关注

热文推荐

单片机—1MHz方波的产生(中断和查询方式)

基于Java高校宿舍管理系统小程序设计和实现(源码+LW+部署讲解)

正点原子imx6ull网络环境配置：开发板和电脑通过网线直连、电脑WiFi上网

ASP常用日期格式化函数 FormatDate()

SQL之用通配符进行过滤

2022数学建模国赛B题思路分析

【自然语言处理五-注意力其他–多头注意力&位置编码等】

自然语言处理五-self attention的其他问题（多头注意力&位置编码）等

多头注意力 multi-head attention

多头注意力的意义是什么？

多头注意力的运作流程

位置编码postion encoding

相关文章

最新关注

热文推荐