Skip to content

关于dc-bert #43

@yingweima2022

Description

@yingweima2022

您好,非常感谢您的工作!
想请问
1.为什么temp_attention_mask要弄成bs,1,1,seq的形状。为什么bs,seq的形状不行。
2.attention_mask, 按照代码的意思是处mask为-10000,non-pad处mask为0,请问我的理解正确嘛。
请问为什么要这么做呢


image

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions