🗒️
本文为“一步步手撸Transformer”系列的第二篇,重点讲解了“多头注意力(Multi-Head Attention)”机制。多头注意力是自注意力(Self-Attention)的一个扩展,首次在2017年由Vaswani等人在"Attention Is All You Need"论文中提出。在Transformer模型中,注意力机制主要在三个地方使用:编码器的自注意力、解码器的自注意力以及解码器中的编码器-解码器注意力。该文详细解释了注意力层的输入(Query, Key, Value)及其计算公式。同时,文章也解答了关于多头注意力的三个常见疑问:1. 参数$d_k$的计算和其意义;2. 为何在解码器中要使用掩码;3. Q、K、V这三个术语的来源和意义。最后,还给出了多头注意力的代码实现和相关的参考资料链接。