通俗易懂理解自注意力机制（Self-Attention）

ShowBL > 通俗易懂理解自注意力机制（Self-Attention）

UP主：

封面：

简介：

补充：在解码阶段当前的token只能跟之前的以及自身计算attention，但即便这样也是n平方的复杂度，所以推理成本没办法本质上下降。相反像Seq2Seq模型推理成本是线性的，但容...

ShowBLwww.showbl.com