祭出公式

MultiHead (Q, K, V) where head_{i} (W_{i}^{Q} \in R^{d_{model} \times d_{k}}, = Concat (head_{1}, \dots, head_{h}) W^{O} = Attention (Q W_{i}^{Q}, K W_{i}^{K}, V W_{i}^{V}) W_{i}^{K} \in R^{d_{model} \times d_{k}}, W_{i}^{V} \in R^{d_{model} \times d_{v}}, W^{O} \in R^{h d_{v} \times d_{model}})

最经典的配置中， $d_{m o d e l} = 512, d_{k} = d_{v} = d_{m o d e l} / h = 64, h = 8$

$d_{v}$ 可以不等于 $d_{k}, d_{v}$

图解过程

对过程的理解

计算过程中的 QKV 矩阵其实是同一个，都是 $X$ 。它表示 n 个 token，每个 token 由长度为 $d_{m o d e l}$ 的向量表示。
多头注意力是对输入 X 进行降维到 $d_{m o d e l} / h$
- 这不是简单的将向量切割成 h 份。
- 而是通过矩阵乘线性变换到低维空间，每个低维空间专注于某一个方面的表示。比如 ”猫“ 这个概念，它关联的概念有 “哺乳动物”、“宠物”等等。
图中的 $Z_{i}$ 就是 $X$ 经过 Transformer 之后的输出，每个 $Z_{i}$ 关注某个方面。
最后通过 $W^{O}$ 矩阵将 $Z_{i}$ 有机结合起来，并恢复到 $X$ 的原始尺寸。

计算过程矩阵维度变化

X W_{i}^{Q} X => (d_{m o d e l}, d_{k}) * (n, d_{m o d e l}) W_{i}^{K} X => (d_{m o d e l}, d_{k}) * (n, d_{m o d e l}) Q K^{T} => (n, d_{k}) * (d_{k}, n) W_{i}^{V} X => (d_{m o d e l}, d_{v}) * (n, d_{m o d e l}) so f t ma x (\frac{Q K ^{T}}{d _{k}}) \cdot V => (n, n) * (n, d_{v}) co n c a t (h e a d_{1}, ... h e a d_{n}) W^{O} = (n, h d_{v}) * (h d_{v}, d_{m o d e l}) = (n, d_{m o d e l}) = (n, d_{k}) = (n, d_{k}) = (n, n) = (n, d_{v}) = (n, d_{v}) = (n, d_{m o d e l}) same as X

QUOTE

用一个公司中新进的一个员工来比喻“Self-Attention 自注意力机制”，这个新员工需要迅速地在全部成员之间做一遍工作岗位关联重要度的“Attention 注意力机制“的审查，以便自己能快速定位出自己在团队中的位置，找准自己的位置，接下来的业务与工作进展自然也会很流畅。

其实，找准个人在团队中的定位，除了在业务流程上的考量外，还有很多==其他的维度需要考量，比如职位的权重、性格匹配度、男女比例关系、前辈与新兵、人际关系==等等等等。如果在这些不同的维度领域，都来一套“Attention 注意力机制”，这就叫“Multi-head Attention 多头注意力机制”了。如果说“Self-Attention 自注意力机制”是一个团队成功的基本必要条件，那么“Multi-head Attention 多头注意力机制”就是确保全团队最优协作的充分条件了。

相信任何一个长时间在一起磨合的团队，都会有意无意地走完这个“Multi-head Attention 多头注意力机制”的过程。这个过程可能会很漫长，并伴随着公司中各种大大小小数不尽的事情，但每每经历过一些磨合之后，团队的协作能力就会进一步提高。而且这种磨合的重头戏往往不是只集中在业务流程上，而是在职位、性格、性别、前辈与新兵、人际关系等等方面的磨合上。因为业务流程是团队存在的必须的基础，而其他方面才是团队的升华。

参考

Q、K、V 与 Multi-Head Attention 多头注意力机制

RickyYel

探索

Q、K、V与多头注意力机制详解

祭出公式

图解过程

对过程的理解

计算过程矩阵维度变化

参考

关系图谱

目录