Rename flash dynamic mask attention function to flash sparse attention forward

LoserCheems · LoserCheems · commit 56a1cd1763c5 · 2025-11-10T21:40:25.000+08:00
diff --git a/examples/modeling/modeling_doge.py b/examples/modeling/modeling_doge.py
@@ -45,7 +45,7 @@
 from .configuration_doge import DogeConfig
 
 try:
-    from flash_sparse_attn.integrations.flash_sparse_attention import flash_dynamic_mask_attention_forward
+    from flash_sparse_attn.integrations.flash_sparse_attention import flash_sparse_attention_forward
 except ImportError:
     print("Please install flash_sparse_attn to use this model: pip install flash-sparse-attn")
 
@@ -220,7 +220,7 @@ def forward(
         # original formula is exp(A * softplus(delta V)), but for numerical stability, it is changed to A * softplus(delta V)
         attn_bias = (self.A * F.softplus(dt_states)).transpose(-1, -2).unsqueeze(-2).to(hidden_states.dtype)
 
-        attention_interface: Callable = flash_dynamic_mask_attention_forward
+        attention_interface: Callable = flash_sparse_attention_forward
 
         attn_output, attn_weights = attention_interface(
             self,