ooples
diff --git a/‎src/AiDotNet.Tensors/Engines/CpuEngine.cs‎
Lines changed: 3 additions & 8 deletions b/‎src/AiDotNet.Tensors/Engines/CpuEngine.cs‎
Lines changed: 3 additions & 8 deletions
diff --git a/‎src/AiDotNet.Tensors/Engines/GpuEngine.cs‎
Lines changed: 2 additions & 1 deletion b/‎src/AiDotNet.Tensors/Engines/GpuEngine.cs‎
Lines changed: 2 additions & 1 deletion
@@ -3695,14 +3695,9 @@ public Tensor<T> SparsemaxBackward<T>(Tensor<T> gradOutput, Tensor<T> output, in
             for (int i = 0; i < axisSize; i++)
             {
                 int flatIdx = (outer * axisSize + i) * innerSize + inner;
-                if (numOps.GreaterThan(outputData[flatIdx], numOps.Zero))
-                {
-                    gradInputData[flatIdx] = numOps.Subtract(gradOutputData[flatIdx], meanGradSupport);
-                }
-                else
-                {
-                    gradInputData[flatIdx] = numOps.Zero;
-                }
+                gradInputData[flatIdx] = numOps.GreaterThan(outputData[flatIdx], numOps.Zero)
+                    ? numOps.Subtract(gradOutputData[flatIdx], meanGradSupport)
+                    : numOps.Zero;
             }
         });
 
 
@@ -12776,7 +12776,8 @@ public Tensor<T> TensorTranspose<T>(Tensor<T> tensor)
             throw new ArgumentException($"TensorTranspose requires a 2D tensor. Got rank {tensor.Rank}.");
 
         // GPU transpose for supported types and large enough tensors
-        if (tensor.Length >= _thresholds.MatrixMultiply && SupportsGpu && _gpuHealthy)
+        // Use lower threshold than MatMul since transpose is simpler but benefits from GPU parallelism
+        if (tensor.Length >= _thresholds.MatrixMultiply / 2 && SupportsGpu && _gpuHealthy)
         {
             if (typeof(T) == typeof(float))
                 return (Tensor<T>)(object)TensorTransposeGpuFloat((Tensor<float>)(object)tensor);
Original file line number	Diff line number	Diff line change
`@@ -12776,7 +12776,8 @@ public Tensor<T> TensorTranspose<T>(Tensor<T> tensor)`
`12776`	`12776`	`throw new ArgumentException($"TensorTranspose requires a 2D tensor. Got rank {tensor.Rank}.");`
`12777`	`12777`
`12778`	`12778`	`// GPU transpose for supported types and large enough tensors`
`12779`		`- if (tensor.Length >= _thresholds.MatrixMultiply && SupportsGpu && _gpuHealthy)`
	`12779`	`+ // Use lower threshold than MatMul since transpose is simpler but benefits from GPU parallelism`
	`12780`	`+ if (tensor.Length >= _thresholds.MatrixMultiply / 2 && SupportsGpu && _gpuHealthy)`
`12780`	`12781`	`{`
`12781`	`12782`	`if (typeof(T) == typeof(float))`
`12782`	`12783`	`return (Tensor<T>)(object)TensorTransposeGpuFloat((Tensor<float>)(object)tensor);`