您好,非常感谢您的工作! 想请问 1.为什么temp_attention_mask要弄成bs,1,1,seq的形状。为什么bs,seq的形状不行。 2.attention_mask, 按照代码的意思是<pad>处mask为-10000,non-pad处mask为0,请问我的理解正确嘛。 请问为什么要这么做呢 --------------------------------------------------------------------------------------------------------------------------------------------- 