Add convertQ8_0toFP32 kernel for dequantization in TransformerComputeKernels

orionpapadakis · orionpapadakis · commit 7456d594e91d · 2025-12-04T19:46:59.000+02:00
diff --git a/src/main/java/org/beehive/gpullama3/tornadovm/kernels/TransformerComputeKernels.java b/src/main/java/org/beehive/gpullama3/tornadovm/kernels/TransformerComputeKernels.java
@@ -3,6 +3,7 @@
 import uk.ac.manchester.tornado.api.KernelContext;
 import uk.ac.manchester.tornado.api.math.TornadoMath;
 import uk.ac.manchester.tornado.api.types.HalfFloat;
+import uk.ac.manchester.tornado.api.types.arrays.ByteArray;
 import uk.ac.manchester.tornado.api.types.arrays.FloatArray;
 import uk.ac.manchester.tornado.api.types.arrays.HalfFloatArray;
 
@@ -26,6 +27,39 @@ public static void convertFP16toFP32(KernelContext context, HalfFloatArray x, Fl
         wrapX.set(i, x.get(i).getFloat32());
     }
 
+    public static void convertQ8_0toFP32(KernelContext context, ByteArray x, FloatArray wrapX) {
+        int globalId = context.globalIdx;
+        int totalElements = wrapX.getSize();
+
+        if (globalId >= totalElements) {
+            return;
+        }
+
+        // Q8_0 block structure constants
+        int blockSize = 32;
+        int Q8_0_BLOCK_BYTES = 34; // 2 bytes scale + 32 bytes quants
+
+        // Calculate which block and position within block
+        int blockIdx = globalId / blockSize;
+        int withinBlockIdx = globalId % blockSize;
+
+        // Calculate byte offset for this Q8_0 block
+        int blockByteOffset = blockIdx * Q8_0_BLOCK_BYTES;
+
+        // Load scale (first 2 bytes of block as HalfFloat)
+        HalfFloat scale = x.getHalf(blockByteOffset);
+        float scaleFloat = scale.getFloat32();
+
+        // Load quantized value (skip 2-byte scale, then index within block)
+        byte quantValue = x.get(blockByteOffset + 2 + withinBlockIdx);
+
+        // Dequantize: float_value = quantized_value * scale
+        float dequantizedValue = ((float) quantValue) * scaleFloat;
+
+        // Store result in output FloatArray
+        wrapX.set(globalId, dequantizedValue);
+    }
+
     public static void convertFP32toFP16(KernelContext context,  FloatArray wrapX, HalfFloatArray x) {
         int i = context.globalIdx;
         float valInput = wrapX.get(i);