UP主: 封面: 简介:补充:在解码阶段当前的token只能跟之前的以及自身计算attention,但即便这样也是n平方的复杂度,所以推理成本没办法本质上下降。相反像Seq2Seq模型推理成本是线性的,但容...