fix: don't force fused_recurrent when in training mode (#636)

masc-it · web-flow · commit 1a4044611b06 · 2025-11-09T14:20:47.000-05:00
diff --git a/fla/layers/kda.py b/fla/layers/kda.py
@@ -172,7 +172,7 @@ def forward(
 
         batch_size, q_len, _ = hidden_states.shape
         # change to inference mode.
-        mode = 'fused_recurrent' if q_len <= 64 else self.mode
+        mode = 'fused_recurrent' if q_len <= 64 and not self.training else self.mode
         if self.training:
             assert mode == 'chunk', "Only chunk mode is supported in training."