flash-algo
diff --git a/‎benchmarks/backward_equivalence.py‎
Lines changed: 1246 additions & 0 deletions b/‎benchmarks/backward_equivalence.py‎
Lines changed: 1246 additions & 0 deletions
diff --git a/‎benchmarks/forward_equivalence.py‎
Lines changed: 1 addition & 1 deletion b/‎benchmarks/forward_equivalence.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎csrc/flash_api.cpp‎
Lines changed: 434 additions & 2 deletions b/‎csrc/flash_api.cpp‎
Lines changed: 434 additions & 2 deletions
diff --git a/‎csrc/src/flash.h‎
Lines changed: 0 additions & 1 deletion b/‎csrc/src/flash.h‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎csrc/src/flash_bwd_kernel.h‎
Lines changed: 310 additions & 181 deletions b/‎csrc/src/flash_bwd_kernel.h‎
Lines changed: 310 additions & 181 deletions
diff --git a/‎csrc/src/flash_bwd_launch_template.h‎
Lines changed: 10 additions & 3 deletions b/‎csrc/src/flash_bwd_launch_template.h‎
Lines changed: 10 additions & 3 deletions
diff --git a/‎csrc/src/flash_fwd_kernel.h‎
Lines changed: 53 additions & 21 deletions b/‎csrc/src/flash_fwd_kernel.h‎
Lines changed: 53 additions & 21 deletions
diff --git a/‎csrc/src/generate_kernels.py‎
Lines changed: 18 additions & 11 deletions b/‎csrc/src/generate_kernels.py‎
Lines changed: 18 additions & 11 deletions
diff --git a/‎csrc/src/hardware_info.h‎
Lines changed: 12 additions & 9 deletions b/‎csrc/src/hardware_info.h‎
Lines changed: 12 additions & 9 deletions
diff --git a/‎csrc/src/instantiations/flash_bwd_hdim128_bf16_causal_sm80.cu‎
Lines changed: 14 additions & 0 deletions b/‎csrc/src/instantiations/flash_bwd_hdim128_bf16_causal_sm80.cu‎
Lines changed: 14 additions & 0 deletions
@@ -249,7 +249,7 @@ def dynamic_mask_attention_cuda(
     key_states = key_states.transpose(1, 2)         # [batch, key_len, num_kv_heads, head_dim]
     value_states = value_states.transpose(1, 2)     # [batch, key_len, num_kv_heads, head_dim]
 
-    # Call the new flash_dmattn_func interface
+    # Call the flash_dmattn_func interface
     attn_outputs = flash_dmattn_func(
         query_states,               # [batch, query_len, num_heads, head_dim]
         key_states,                 # [batch, key_len, num_kv_heads, head_dim]
 
@@ -153,7 +153,6 @@ struct Flash_bwd_params : public Flash_fwd_params {
     void *__restrict__ dq_accum_ptr;
     void *__restrict__ dk_accum_ptr;
     void *__restrict__ dv_accum_ptr;
-    void *__restrict__ dbias_accum_ptr;
 
     // // To accumulate dK and dV in case we're splitting the bwd along seqlen_q
     // dimension void *__restrict__ dk_accum_ptr; void *__restrict__
 
@@ -137,11 +137,18 @@ void run_mha_bwd_hdim32(Flash_bwd_params &params, cudaStream_t stream) {
     if (status_ != cudaSuccess) {
       C10_CUDA_CHECK(status_);
     }
-        if (max_smem_per_block >= 2 * ((3 * 128 + 2 * 128) * Headdim + 2 * 128 * 128)) { // 104 KB
+        // 2 * (...) - Double buffering factor
+        // (3 * kBlockM + 2 * kBlockN) * Headdim - Vector tiles in shared memory
+        //   - 3 * kBlockM * Headdim: Q tile, dQ tile, dOut tile
+        //   - 2 * kBlockN * Headdim: K tile, V tile
+        // 4 * kBlockM * kBlockN - Matrix tiles in shared memory
+        //   - 2 * kBlockM * kBlockN: S tile, P tile
+        //   - 2 * kBlockM * kBlockN: Mask tile, Bias tile
+        if (max_smem_per_block >= 2 * ((3 * 64 + 2 * 128) * Headdim + 4 * 64 * 128)) { // 94 KB
             // We can afford more registers to keep V in registers
-            run_flash_bwd<Flash_bwd_kernel_traits<Headdim, 128, 128, 8, 4, 4, 4, true, false, T>, Is_causal>(params, stream);
+            run_flash_bwd<Flash_bwd_kernel_traits<Headdim, 64, 128, 8, 4, 4, 4, true, false, T>, Is_causal>(params, stream);
         } else {  // 96 KB
-            run_flash_bwd<Flash_bwd_kernel_traits<Headdim, 128, 128, 8, 4, 4, 4, true, false, T>, Is_causal>(params, stream);
+            run_flash_bwd<Flash_bwd_kernel_traits<Headdim, 64, 128, 8, 4, 4, 4, true, false, T>, Is_causal>(params, stream);
         }
 }
 
 
@@ -25,7 +25,13 @@ using namespace cute;
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 template<typename ElementAccum, typename Params, int kBlockM, bool Is_even_MN>
-__forceinline__ __device__ auto get_lse_tile(const Params &params, const int bidb, const int bidh, const int m_block, const BlockInfo</*Varlen=*/!Is_even_MN> &binfo) {
+__forceinline__ __device__ auto get_lse_tile(
+    const Params &params,
+    const int bidb,
+    const int bidh,
+    const int m_block,
+    const BlockInfo</*Varlen=*/!Is_even_MN> &binfo
+) {
         // When params.unpadded_lse is false, LSE is written as (b, h, seqlen_q) - this is non-variable seqlen path.
         // Otherwise, when params.seqlenq_ngroups_swapped is true, it is written as (h, seqlen_q, b) to account for seqlen_q <-> h swapping trick.
         // Otherwise, it's written as (h, b, seqlen_q).
@@ -244,8 +250,8 @@ inline __device__ void compute_attn_1rowblock(const Params &params, const int bi
     Tensor tSrQ = thr_mma.partition_fragment_A(sQ);                                         // (MMA, MMA_M, MMA_K)
     Tensor tSrK = thr_mma.partition_fragment_B(sK);                                         // (MMA, MMA_N, MMA_K)
     Tensor tOrVt = thr_mma.partition_fragment_B(sVtNoSwizzle);                              // (MMA, MMA_K, MMA_N)
-    Tensor tSrMask = partition_fragment_C(tiled_mma, Shape<Int<kBlockM>, Int<kBlockN>>{});  // (MMA, MMA_M, MMA_N)
-    Tensor tSrBias = partition_fragment_C(tiled_mma, Shape<Int<kBlockM>, Int<kBlockN>>{});  // (MMA, MMA_M, MMA_N)
+    // Tensor tSrMask = partition_fragment_C(tiled_mma, Shape<Int<kBlockM>, Int<kBlockN>>{});  // (MMA, MMA_M, MMA_N)
+    // Tensor tSrBias = partition_fragment_C(tiled_mma, Shape<Int<kBlockM>, Int<kBlockN>>{});  // (MMA, MMA_M, MMA_N)
     Tensor tSgS  = thr_mma.partition_C(gP);
     Tensor acc_o = partition_fragment_C(tiled_mma, Shape<Int<kBlockM>, Int<kHeadDim>>{});   // (MMA, MMA_M, MMA_K)
 
@@ -268,7 +274,9 @@ inline __device__ void compute_attn_1rowblock(const Params &params, const int bi
     auto smem_thr_copy_Bias = smem_tiled_copy_Bias.get_thread_slice(tidx);
     Tensor tSsBias = smem_thr_copy_Bias.partition_S(sBias);
 
+
     // PREDICATES
+
     // // Allocate predicate tensors for m and n
     // Tensor tQpQ = make_tensor<bool>(make_shape(size<1>(tQsQ), size<2>(tQsQ)), Stride<_1,_0>{});
     // Tensor tKVpKV = make_tensor<bool>(make_shape(size<1>(tKsK), size<2>(tKsK)), Stride<_1,_0>{});
@@ -294,9 +302,11 @@ inline __device__ void compute_attn_1rowblock(const Params &params, const int bi
     Tensor tKVcKV = gmem_thr_copy_QKV.partition_S(cKV);             // (BCPY, BCPY_N, BCPY_K) -> (blk_n, blk_k)
     Tensor tMaskcMask = gmem_thr_copy_Mask.partition_S(cMask);      // (MaskCPY, MaskCPY_M, MaskCPY_N) -> (blk_m, blk_n)
     Tensor tBiascBias = gmem_thr_copy_Bias.partition_S(cBias);      // (BiasCPY, BiasCPY_M, BiasCPY_N) -> (blk_m, blk_n)
+
     // Allocate predicate tensors for k
     Tensor tQpQ = make_tensor<bool>(make_shape(size<2>(tQsQ)));
     Tensor tKVpKV = make_tensor<bool>(make_shape(size<2>(tKsK)));
+
     // Set predicates for k bounds
     if (!Is_even_K) {
         #pragma unroll
@@ -309,7 +319,9 @@ inline __device__ void compute_attn_1rowblock(const Params &params, const int bi
         }
     }
 
+
     // Prologue
+
     // We don't need to clear the sQ smem tiles since we'll only write out the valid outputs
     FLASH_NAMESPACE::copy<Is_even_MN, Is_even_K>(
         gmem_tiled_copy_QKV,
@@ -393,6 +405,8 @@ inline __device__ void compute_attn_1rowblock(const Params &params, const int bi
         __syncthreads();
 
         // Copy Mask and Bias from smem to registers
+        Tensor tSrMask = make_tensor<Element>(shape(acc_s));
+        Tensor tSrBias = make_tensor<Element>(shape(acc_s));
         Tensor tSrMask_copy_view = smem_thr_copy_Mask.retile_D(tSrMask);
         cute::copy(smem_tiled_copy_Mask, tSsMask, tSrMask_copy_view);
         Tensor tSrBias_copy_view = smem_thr_copy_Bias.retile_D(tSrBias);
@@ -419,9 +433,9 @@ inline __device__ void compute_attn_1rowblock(const Params &params, const int bi
         // Use sparse general matrix multiplication
         FLASH_NAMESPACE::sparse_gemm</*A_in_regs=*/Kernel_traits::Is_Q_in_regs>(
             acc_s,
-            tSrQ,
-            tSrK, tSsQ, tSsK, tSrMask,      // Active key mask for sparse K matrix multiplication
-            tiled_mma, smem_tiled_copy_Q, smem_tiled_copy_K,
+            tSrQ, tSrK, tSsQ, tSsK, tSrMask,        // Active key mask for sparse K matrix multiplication
+            tiled_mma,
+            smem_tiled_copy_Q, smem_tiled_copy_K,
             smem_thr_copy_Q, smem_thr_copy_K
         );
         // if (cute::thread0()) { print(acc_s); }
@@ -483,7 +497,8 @@ inline __device__ void compute_attn_1rowblock(const Params &params, const int bi
         FLASH_NAMESPACE::sparse_gemm_rs(
             acc_o,
             tOrP, tOrVt, tOsVt, tSrMask,    // Apply the same mask for sparse V matrix multiplication
-            tiled_mma, smem_tiled_copy_V, smem_thr_copy_V
+            tiled_mma,
+            smem_tiled_copy_V, smem_thr_copy_V
         );
         // if (cute::thread0()) { print(scores); }
 
@@ -502,6 +517,8 @@ inline __device__ void compute_attn_1rowblock(const Params &params, const int bi
         __syncthreads();
 
         // Copy Mask and Bias from smem to registers
+        Tensor tSrMask = make_tensor<Element>(shape(acc_s));
+        Tensor tSrBias = make_tensor<Element>(shape(acc_s));
         Tensor tSrMask_copy_view = smem_thr_copy_Mask.retile_D(tSrMask);
         cute::copy(smem_tiled_copy_Mask, tSsMask, tSrMask_copy_view);
         Tensor tSrBias_copy_view = smem_thr_copy_Bias.retile_D(tSrBias);
@@ -514,11 +531,12 @@ inline __device__ void compute_attn_1rowblock(const Params &params, const int bi
         );
         cute::cp_async_fence();
 
+        // Use sparse general matrix multiplication
         FLASH_NAMESPACE::sparse_gemm</*A_in_regs=*/Kernel_traits::Is_Q_in_regs>(
             acc_s,
-            tSrQ,
-            tSrK, tSsQ, tSsK, tSrMask,      // Active key mask for sparse K matrix multiplication
-            tiled_mma, smem_tiled_copy_Q, smem_tiled_copy_K,
+            tSrQ, tSrK, tSsQ, tSsK, tSrMask,        // Active key mask for sparse K matrix multiplication
+            tiled_mma,
+            smem_tiled_copy_Q, smem_tiled_copy_K,
             smem_thr_copy_Q, smem_thr_copy_K
         );
         if constexpr (Is_softcap){
@@ -574,10 +592,12 @@ inline __device__ void compute_attn_1rowblock(const Params &params, const int bi
         FLASH_NAMESPACE::sparse_gemm_rs(
             acc_o,
             tOrP, tOrVt, tOsVt, tSrMask,    // Apply the same mask for sparse V matrix multiplication
-            tiled_mma, smem_tiled_copy_V, smem_thr_copy_V
+            tiled_mma,
+            smem_tiled_copy_V, smem_thr_copy_V
         );
     }
 
+
     // Epilogue
 
     Tensor lse = softmax.template normalize_softmax_lse(acc_o, params.scale_softmax);
@@ -857,8 +877,8 @@ inline __device__ void compute_attn_1rowblock_splitkv(const Params &params, cons
     Tensor tSrQ = thr_mma.partition_fragment_A(sQ);                                         // (MMA, MMA_M, MMA_K)
     Tensor tSrK = thr_mma.partition_fragment_B(sK);                                         // (MMA, MMA_N, MMA_K)
     Tensor tOrVt = thr_mma.partition_fragment_B(sVtNoSwizzle);                              // (MMA, MMA_K, MMA_N)
-    Tensor tSrMask = partition_fragment_C(tiled_mma, Shape<Int<kBlockM>, Int<kBlockN>>{});  // (MMA, MMA_M, MMA_N)
-    Tensor tSrBias = partition_fragment_C(tiled_mma, Shape<Int<kBlockM>, Int<kBlockN>>{});  // (MMA, MMA_M, MMA_N)
+    // Tensor tSrMask = partition_fragment_C(tiled_mma, Shape<Int<kBlockM>, Int<kBlockN>>{});  // (MMA, MMA_M, MMA_N)
+    // Tensor tSrBias = partition_fragment_C(tiled_mma, Shape<Int<kBlockM>, Int<kBlockN>>{});  // (MMA, MMA_M, MMA_N)
     Tensor acc_o = partition_fragment_C(tiled_mma, Shape<Int<kBlockM>, Int<kHeadDim>>{});   // (MMA, MMA_M, MMA_K)
 
     // Copy Atom retiling
@@ -878,7 +898,9 @@ inline __device__ void compute_attn_1rowblock_splitkv(const Params &params, cons
     auto smem_thr_copy_Bias = smem_tiled_copy_Bias.get_thread_slice(tidx);
     Tensor tSsBias = smem_thr_copy_Bias.partition_S(sBias);
 
+
     // PREDICATES
+
     // Construct identity layout for sQ and sK
     Tensor cQ = make_identity_tensor(make_shape(size<0>(sQ), size<1>(sQ)));                     // (BLK_M, BLK_K) -> (blk_m, blk_k)
     Tensor cKV = make_identity_tensor(make_shape(size<0>(sK), size<1>(sK)));                    // (BLK_N, BLK_K) -> (blk_n, blk_k)
@@ -904,7 +926,9 @@ inline __device__ void compute_attn_1rowblock_splitkv(const Params &params, cons
         }
     }
 
+
     // Prologue
+
     // Read Q from gmem to smem
     // We don't need to clear the sQ smem tiles since we'll only write out the valid outputs
     FLASH_NAMESPACE::copy<Is_even_MN, Is_even_K>(
@@ -969,6 +993,8 @@ inline __device__ void compute_attn_1rowblock_splitkv(const Params &params, cons
         __syncthreads();
 
         // Copy Mask and Bias from smem to registers
+        Tensor tSrMask = make_tensor<Element>(shape(acc_s));
+        Tensor tSrBias = make_tensor<Element>(shape(acc_s));
         Tensor tSrMask_copy_view = smem_thr_copy_Mask.retile_D(tSrMask);
         cute::copy(smem_tiled_copy_Mask, tSsMask, tSrMask_copy_view);
         Tensor tSrBias_copy_view = smem_thr_copy_Bias.retile_D(tSrBias);
@@ -1004,9 +1030,9 @@ inline __device__ void compute_attn_1rowblock_splitkv(const Params &params, cons
         // Use sparse general matrix multiplication
         FLASH_NAMESPACE::sparse_gemm</*A_in_regs=*/Kernel_traits::Is_Q_in_regs>(
             acc_s,
-            tSrQ,
-            tSrK, tSsQ, tSsK, tSrMask,      // Active key mask for sparse K matrix multiplication
-            tiled_mma, smem_tiled_copy_Q, smem_tiled_copy_K,
+            tSrQ, tSrK, tSsQ, tSsK, tSrMask,        // Active key mask for sparse K matrix multiplication
+            tiled_mma,
+            smem_tiled_copy_Q, smem_tiled_copy_K,
             smem_thr_copy_Q, smem_thr_copy_K
         );
         // if (cute::thread0()) { print(acc_s); }
@@ -1080,7 +1106,8 @@ inline __device__ void compute_attn_1rowblock_splitkv(const Params &params, cons
         FLASH_NAMESPACE::sparse_gemm_rs(
             acc_o,
             tOrP, tOrVt, tOsVt, tSrMask,    // Apply the same mask for sparse V matrix multiplication
-            tiled_mma, smem_tiled_copy_V, smem_thr_copy_V
+            tiled_mma,
+            smem_tiled_copy_V, smem_thr_copy_V
         );
 
         // This check is at the end of the loop since we always have at least 1 iteration
@@ -1098,6 +1125,8 @@ inline __device__ void compute_attn_1rowblock_splitkv(const Params &params, cons
         __syncthreads();
 
         // Copy Mask and Bias from smem to registers
+        Tensor tSrMask = make_tensor<Element>(shape(acc_s));
+        Tensor tSrBias = make_tensor<Element>(shape(acc_s));
         Tensor tSrMask_copy_view = smem_thr_copy_Mask.retile_D(tSrMask);
         cute::copy(smem_tiled_copy_Mask, tSsMask, tSrMask_copy_view);
         Tensor tSrBias_copy_view = smem_thr_copy_Bias.retile_D(tSrBias);
@@ -1120,11 +1149,12 @@ inline __device__ void compute_attn_1rowblock_splitkv(const Params &params, cons
         );
         cute::cp_async_fence();
 
+        // Use sparse general matrix multiplication
         FLASH_NAMESPACE::sparse_gemm</*A_in_regs=*/Kernel_traits::Is_Q_in_regs>(
             acc_s,
-            tSrQ,
-            tSrK, tSsQ, tSsK, tSrMask,      // Active key mask for sparse K matrix multiplication
-            tiled_mma, smem_tiled_copy_Q, smem_tiled_copy_K,
+            tSrQ, tSrK, tSsQ, tSsK, tSrMask,        // Active key mask for sparse K matrix multiplication
+            tiled_mma,
+            smem_tiled_copy_Q, smem_tiled_copy_K,
             smem_thr_copy_Q, smem_thr_copy_K
         );
         if constexpr (Is_softcap){
@@ -1190,10 +1220,12 @@ inline __device__ void compute_attn_1rowblock_splitkv(const Params &params, cons
         FLASH_NAMESPACE::sparse_gemm_rs(
             acc_o,
             tOrP, tOrVt, tOsVt, tSrMask,    // Apply the same mask for sparse V matrix multiplication
-            tiled_mma, smem_tiled_copy_V, smem_thr_copy_V
+            tiled_mma,
+            smem_tiled_copy_V, smem_thr_copy_V
         );
     }
 
+
     // Epilogue
 
     Tensor lse = softmax.template normalize_softmax_lse<Split>(acc_o, params.scale_softmax);
 
@@ -15,7 +15,8 @@
 NAMESPACE_INCLUDE = '#include "namespace_config.h"\n'
 
 def get_fwd_template() -> str:
-    return NAMESPACE_INCLUDE + """#include "flash_fwd_launch_template.h"
+    return NAMESPACE_INCLUDE + """
+#include "flash_fwd_launch_template.h"
 
 namespace FLASH_NAMESPACE {{
 
@@ -24,19 +25,23 @@ def get_fwd_template() -> str:
     run_mha_fwd_hdim{HEAD_DIM}<{DTYPE}, {IS_CAUSAL}>(params, stream);
 }}
 
-}} // namespace FLASH_NAMESPACE"""
+}} // namespace FLASH_NAMESPACE
+""".strip()
 
 def get_fwd_split_template() -> str:
-    return NAMESPACE_INCLUDE + """#include "flash_fwd_launch_template.h"
+    return NAMESPACE_INCLUDE + """
+#include "flash_fwd_launch_template.h"
 
 namespace FLASH_NAMESPACE {{
 
 template void run_mha_fwd_splitkv_dispatch<{DTYPE}, {HEAD_DIM}, {IS_CAUSAL}>(Flash_fwd_params &params, cudaStream_t stream);
 
-}} // namespace FLASH_NAMESPACE"""
+}} // namespace FLASH_NAMESPACE
+""".strip()
 
 def get_bwd_template() -> str:
-    return NAMESPACE_INCLUDE + """#include "flash_bwd_launch_template.h"
+    return NAMESPACE_INCLUDE + """
+#include "flash_bwd_launch_template.h"
 
 namespace FLASH_NAMESPACE {{
 
@@ -45,7 +50,8 @@ def get_bwd_template() -> str:
     run_mha_bwd_hdim{HEAD_DIM}<{DTYPE}, {IS_CAUSAL}>(params, stream);
 }}
 
-}} // namespace FLASH_NAMESPACE"""
+}} // namespace FLASH_NAMESPACE
+""".strip()
 
 @dataclass
 class Kernel:
@@ -59,7 +65,7 @@ class Kernel:
     def template(self) -> str:
         template_funcs = {
             "fwd": get_fwd_template,
-            # "bwd": get_bwd_template,
+            "bwd": get_bwd_template,
             "fwd_split": get_fwd_split_template
         }
         template_func = template_funcs[self.direction]
@@ -74,15 +80,16 @@ def filename(self) -> str:
         return f"flash_{self.direction}_hdim{self.head_dim}_{self.dtype}_{'causal_' if self.is_causal == 'true' else ''}sm{self.sm}.cu"
 
 def get_all_kernels() -> Generator[Kernel, None, None]:
-    # for direction in ["fwd", "fwd_split", "bwd"]:
-    for direction in ["fwd", "fwd_split"]:
+    for direction in ["fwd", "fwd_split", "bwd"]:
         for dtype, head_dim, is_causal, sm in itertools.product(DTYPE_MAP.keys(), HEAD_DIMENSIONS, IS_CAUSAL, SM):
             yield Kernel(sm=sm, dtype=dtype, head_dim=head_dim, is_causal=is_causal, direction=direction)
 
 def write_kernel(kernel: Kernel, autogen_dir: Path) -> None:
-    prelude = """// Copyright (c) 2025, Jingze Shi and Tri Dao.
+    prelude = """
+// Copyright (c) 2025, Jingze Shi and Tri Dao.
 // Splitting the different head dimensions to different files to speed up compilation.
-// This file is auto-generated. See "generate_kernels.py"\n"""
+// This file is auto-generated. See "generate_kernels.py"\n
+""".strip()
     content = prelude + kernel.template
     (autogen_dir / kernel.filename).write_text(content)
 
 
@@ -1,5 +1,5 @@
 /******************************************************************************
- * Copyright (c) 2024, Tri Dao.
+ * Copyright (c) 2025, Jingze Shi and Tri Dao.
  ******************************************************************************/
 
 #pragma once
@@ -10,14 +10,17 @@
 #include "cuda_runtime.h"
 #endif
 
-#define CHECK_CUDA(call)                                                       \
-  do {                                                                         \
-    cudaError_t status_ = call;                                                \
-    if (status_ != cudaSuccess) {                                              \
-      fprintf(stderr, "CUDA error (%s:%d): %s\n", __FILE__, __LINE__,          \
-              cudaGetErrorString(status_));                                    \
-      exit(1);                                                                 \
-    }                                                                          \
+#define CHECK_CUDA(call)                                                        \
+  do {                                                                          \
+    cudaError_t status_ = call;                                                 \
+    if (status_ != cudaSuccess) {                                               \
+      fprintf(                                                                  \
+        stderr,                                                                 \
+        "CUDA error (%s:%d): %s\n", __FILE__, __LINE__,                         \
+        cudaGetErrorString(status_)                                             \
+      );                                                                        \
+      exit(1);                                                                  \
+    }                                                                           \
   } while (0)
 
 
 
@@ -0,0 +1,14 @@
+// Copyright (c) 2025, Jingze Shi and Tri Dao.
+// Splitting the different head dimensions to different files to speed up compilation.
+// This file is auto-generated. See "generate_kernels.py"
+#include "namespace_config.h"
+#include "flash_bwd_launch_template.h"
+
+namespace FLASH_NAMESPACE {
+
+template<>
+void run_mha_bwd_<cutlass::bfloat16_t, 128, true>(Flash_bwd_params &params, cudaStream_t stream) {
+    run_mha_bwd_hdim128<cutlass::bfloat16_t, true>(params, stream);
+}
+
+} // namespace FLASH_NAMESPACE