Benchmarks and version bump

anicusan · anicusan · commit 99c28213ad21 · 2025-05-26T16:00:17.000+01:00
diff --git a/Project.toml b/Project.toml
@@ -1,7 +1,7 @@
 name = "AcceleratedKernels"
 uuid = "6a4ca0a5-0e36-4168-a932-d9be78d558f1"
 authors = ["Andrei-Leonard Nicusan <leonard@evophase.co.uk> and contributors"]
-version = "0.4.0"
+version = "0.4.1"
 
 [deps]
 ArgCheck = "dce04be8-c92d-5529-be00-80e4d2c0e197"
diff --git a/benchmark/Project.toml b/benchmark/Project.toml
@@ -0,0 +1,3 @@
+[deps]
+AcceleratedKernels = "6a4ca0a5-0e36-4168-a932-d9be78d558f1"
+KernelAbstractions = "63c18a36-062a-441e-b654-da1e3ab1ce7c"
diff --git a/benchmark/accumulate_1d.jl b/benchmark/accumulate_1d.jl
@@ -0,0 +1,53 @@
+import AcceleratedKernels as AK
+using KernelAbstractions
+
+using BenchmarkTools
+using Random
+Random.seed!(0)
+
+
+# Choose the Array backend:
+#
+# using CUDA
+# const ArrayType = CuArray
+#
+# using AMDGPU
+# const ArrayType = ROCArray
+#
+# using oneAPI
+# const ArrayType = oneArray
+#
+# using Metal
+# const ArrayType = MtlArray
+#
+# using OpenCL
+# const ArrayType = CLArray
+#
+const ArrayType = Array
+
+
+println("Using ArrayType: ", ArrayType)
+
+
+n = 1_000_000
+
+
+println("\n===\nBenchmarking accumulate(+) on $n UInt32 - Base vs. AK")
+display(@benchmark Base.accumulate(+, v, init=UInt32(0)) setup=(v = ArrayType(rand(UInt32(1):UInt32(100), n))))
+display(@benchmark AK.accumulate(+, v, init=UInt32(0)) setup=(v = ArrayType(rand(UInt32(1):UInt32(100), n))))
+
+
+println("\n===\nBenchmarking accumulate(+) on $n Int64 - Base vs. AK")
+display(@benchmark Base.accumulate(+, v, init=Int64(0)) setup=(v = ArrayType(rand(Int64(1):Int64(100), n))))
+display(@benchmark AK.accumulate(+, v, init=Int64(0)) setup=(v = ArrayType(rand(Int64(1):Int64(100), n))))
+
+
+println("\n===\nBenchmarking accumulate(+) on $n Float32 - Base vs. AK")
+display(@benchmark Base.accumulate(+, v, init=Float32(0)) setup=(v = ArrayType(rand(Float32, n))))
+display(@benchmark AK.accumulate(+, v, init=Float32(0)) setup=(v = ArrayType(rand(Float32, n))))
+
+
+println("\n===\nBenchmarking accumulate((x, y) -> sin(x) + cos(y)) on $n Float32 - Base vs. AK")
+display(@benchmark Base.accumulate((x, y) -> sin(x) + cos(y), v, init=Float32(0)) setup=(v = ArrayType(rand(Float32, n))))
+display(@benchmark AK.accumulate((x, y) -> sin(x) + cos(y), v, init=Float32(0), neutral=Float32(0)) setup=(v = ArrayType(rand(Float32, n))))
+
diff --git a/benchmark/accumulate_nd.jl b/benchmark/accumulate_nd.jl
@@ -0,0 +1,75 @@
+import AcceleratedKernels as AK
+using KernelAbstractions
+
+using BenchmarkTools
+using Random
+Random.seed!(0)
+
+
+# Choose the Array backend:
+#
+# using CUDA
+# const ArrayType = CuArray
+#
+# using AMDGPU
+# const ArrayType = ROCArray
+#
+# using oneAPI
+# const ArrayType = oneArray
+#
+# using Metal
+# const ArrayType = MtlArray
+#
+# using OpenCL
+# const ArrayType = CLArray
+#
+const ArrayType = Array
+
+
+println("Using ArrayType: ", ArrayType)
+
+
+n1 = 3
+n2 = 1_000_000
+
+
+println("\n===\nBenchmarking accumulate(+, dims=1) on $n1 × $n2 UInt32 - Base vs. AK")
+display(@benchmark Base.accumulate(+, v, init=UInt32(0), dims=1) setup=(v = ArrayType(rand(UInt32(1):UInt32(100), n1, n2))))
+display(@benchmark AK.accumulate(+, v, init=UInt32(0), dims=1) setup=(v = ArrayType(rand(UInt32(1):UInt32(100), n1, n2))))
+
+println("\n===\nBenchmarking accumulate(+, dims=2) on $n1 × $n2 UInt32 - Base vs. AK")
+display(@benchmark Base.accumulate(+, v, init=UInt32(0), dims=2) setup=(v = ArrayType(rand(UInt32(1):UInt32(100), n1, n2))))
+display(@benchmark AK.accumulate(+, v, init=UInt32(0), dims=2) setup=(v = ArrayType(rand(UInt32(1):UInt32(100), n1, n2))))
+
+
+
+
+println("\n===\nBenchmarking accumulate(+, dims=1) on $n1 × $n2 Int64 - Base vs. AK")
+display(@benchmark Base.accumulate(+, v, init=Int64(0), dims=1) setup=(v = ArrayType(rand(Int64(1):Int64(100), n1, n2))))
+display(@benchmark AK.accumulate(+, v, init=Int64(0), dims=1) setup=(v = ArrayType(rand(Int64(1):Int64(100), n1, n2))))
+
+println("\n===\nBenchmarking accumulate(+, dims=2) on $n1 × $n2 Int64 - Base vs. AK")
+display(@benchmark Base.accumulate(+, v, init=Int64(0), dims=2) setup=(v = ArrayType(rand(Int64(1):Int64(100), n1, n2))))
+display(@benchmark AK.reduce(+, v, init=Int64(0), dims=2) setup=(v = ArrayType(rand(Int64(1):Int64(100), n1, n2))))
+
+
+
+
+println("\n===\nBenchmarking accumulate(+, dims=1) on $n1 × $n2 Float32 - Base vs. AK")
+display(@benchmark Base.accumulate(+, v, init=Float32(0), dims=1) setup=(v = ArrayType(rand(Float32, n1, n2))))
+display(@benchmark AK.accumulate(+, v, init=Float32(0), dims=1) setup=(v = ArrayType(rand(Float32, n1, n2))))
+
+println("\n===\nBenchmarking accumulate(+, dims=2) on $n1 × $n2 Float32 - Base vs. AK")
+display(@benchmark Base.accumulate(+, v, init=Float32(0), dims=2) setup=(v = ArrayType(rand(Float32, n1, n2))))
+display(@benchmark AK.accumulate(+, v, init=Float32(0), dims=2) setup=(v = ArrayType(rand(Float32, n1, n2))))
+
+
+
+
+println("\n===\nBenchmarking accumulate((x, y) -> sin(x) + cos(y)), dims=1) on $n1 × $n2 Float32 - Base vs. AK")
+display(@benchmark Base.accumulate((x, y) -> sin(x) + cos(y), v, init=Float32(0), dims=1) setup=(v = ArrayType(rand(Float32, n1, n2))))
+display(@benchmark AK.accumulate((x, y) -> sin(x) + cos(y), v, init=Float32(0), neutral=Float32(0), dims=1) setup=(v = ArrayType(rand(Float32, n1, n2))))
+
+println("\n===\nBenchmarking accumulate((x, y) -> sin(x) + cos(y)), dims=2) on $n1 × $n2 Float32 - Base vs. AK")
+display(@benchmark Base.accumulate((x, y) -> sin(x) + cos(y), v, init=Float32(0), dims=2) setup=(v = ArrayType(rand(Float32, n1, n2))))
+display(@benchmark AK.accumulate((x, y) -> sin(x) + cos(y), v, init=Float32(0), neutral=Float32(0), dims=2) setup=(v = ArrayType(rand(Float32, n1, n2))))
diff --git a/benchmark/map.jl b/benchmark/map.jl
@@ -0,0 +1,54 @@
+import AcceleratedKernels as AK
+using KernelAbstractions
+
+using BenchmarkTools
+using Random
+Random.seed!(0)
+
+
+# Choose the Array backend:
+#
+# using CUDA
+# const ArrayType = CuArray
+#
+# using AMDGPU
+# const ArrayType = ROCArray
+#
+# using oneAPI
+# const ArrayType = oneArray
+#
+# using Metal
+# const ArrayType = MtlArray
+#
+# using OpenCL
+# const ArrayType = CLArray
+#
+const ArrayType = Array
+
+
+println("Using ArrayType: ", ArrayType)
+
+
+n = 1_000_000
+f(x) = typeof(x)(2) * x
+
+
+println("\n===\nBenchmarking map(x->2x) on $n UInt32 - Base vs. AK")
+display(@benchmark Base.map(f, v) setup=(v = ArrayType(rand(UInt32(1):UInt32(1_000_000), n))))
+display(@benchmark AK.map(f, v) setup=(v = ArrayType(rand(UInt32(1):UInt32(1_000_000), n))))
+
+
+println("\n===\nBenchmarking map(x->2x) on $n Int64 - Base vs. AK")
+display(@benchmark Base.map(f, v) setup=(v = ArrayType(rand(Int64(1):Int64(1_000_000), n))))
+display(@benchmark AK.map(f, v) setup=(v = ArrayType(rand(Int64(1):Int64(1_000_000), n))))
+
+
+println("\n===\nBenchmarking map(x->2x) on $n Float32 - Base vs. AK")
+display(@benchmark Base.map(f, v) setup=(v = ArrayType(rand(Float32, n))))
+display(@benchmark AK.map(f, v) setup=(v = ArrayType(rand(Float32, n))))
+
+
+println("\n===\nBenchmarking map(x->sin(x)) on $n Float32 - Base vs. AK")
+display(@benchmark Base.map(sin, v) setup=(v = ArrayType(rand(Float32, n))))
+display(@benchmark AK.map(sin, v) setup=(v = ArrayType(rand(Float32, n))))
+
diff --git a/benchmark/mapreduce_1d.jl b/benchmark/mapreduce_1d.jl
@@ -0,0 +1,53 @@
+import AcceleratedKernels as AK
+using KernelAbstractions
+
+using BenchmarkTools
+using Random
+Random.seed!(0)
+
+
+# Choose the Array backend:
+#
+# using CUDA
+# const ArrayType = CuArray
+#
+# using AMDGPU
+# const ArrayType = ROCArray
+#
+# using oneAPI
+# const ArrayType = oneArray
+#
+# using Metal
+# const ArrayType = MtlArray
+#
+# using OpenCL
+# const ArrayType = CLArray
+#
+const ArrayType = Array
+
+
+println("Using ArrayType: ", ArrayType)
+
+
+n = 1_000_000
+
+
+println("\n===\nBenchmarking mapreduce(identity, +) on $n UInt32 - Base vs. AK")
+display(@benchmark Base.reduce(+, v, init=UInt32(0)) setup=(v = ArrayType(rand(UInt32(1):UInt32(100), n))))
+display(@benchmark AK.reduce(+, v, init=UInt32(0)) setup=(v = ArrayType(rand(UInt32(1):UInt32(100), n))))
+
+
+println("\n===\nBenchmarking mapreduce(identity, +) on $n Int64 - Base vs. AK")
+display(@benchmark Base.reduce(+, v, init=Int64(0)) setup=(v = ArrayType(rand(Int64(1):Int64(100), n))))
+display(@benchmark AK.reduce(+, v, init=Int64(0)) setup=(v = ArrayType(rand(Int64(1):Int64(100), n))))
+
+
+println("\n===\nBenchmarking mapreduce(identity, +) on $n Float32 - Base vs. AK")
+display(@benchmark Base.reduce(+, v, init=Float32(0)) setup=(v = ArrayType(rand(Float32, n))))
+display(@benchmark AK.reduce(+, v, init=Float32(0)) setup=(v = ArrayType(rand(Float32, n))))
+
+
+println("\n===\nBenchmarking mapreduce!(sin, +) on $n Float32 - Base vs. AK")
+display(@benchmark Base.mapreduce(sin, +, v, init=Float32(0)) setup=(v = ArrayType(rand(Float32, n))))
+display(@benchmark AK.mapreduce(sin, +, v, init=Float32(0)) setup=(v = ArrayType(rand(Float32, n))))
+
diff --git a/benchmark/mapreduce_nd.jl b/benchmark/mapreduce_nd.jl
@@ -0,0 +1,75 @@
+import AcceleratedKernels as AK
+using KernelAbstractions
+
+using BenchmarkTools
+using Random
+Random.seed!(0)
+
+
+# Choose the Array backend:
+#
+# using CUDA
+# const ArrayType = CuArray
+#
+# using AMDGPU
+# const ArrayType = ROCArray
+#
+# using oneAPI
+# const ArrayType = oneArray
+#
+# using Metal
+# const ArrayType = MtlArray
+#
+# using OpenCL
+# const ArrayType = CLArray
+#
+const ArrayType = Array
+
+
+println("Using ArrayType: ", ArrayType)
+
+
+n1 = 3
+n2 = 1_000_000
+
+
+println("\n===\nBenchmarking mapreduce(identity, +, dims=1) on $n1 × $n2 UInt32 - Base vs. AK")
+display(@benchmark Base.reduce(+, v, init=UInt32(0), dims=1) setup=(v = ArrayType(rand(UInt32(1):UInt32(100), n1, n2))))
+display(@benchmark AK.reduce(+, v, init=UInt32(0), dims=1) setup=(v = ArrayType(rand(UInt32(1):UInt32(100), n1, n2))))
+
+println("\n===\nBenchmarking mapreduce(identity, +, dims=2) on $n1 × $n2 UInt32 - Base vs. AK")
+display(@benchmark Base.reduce(+, v, init=UInt32(0), dims=2) setup=(v = ArrayType(rand(UInt32(1):UInt32(100), n1, n2))))
+display(@benchmark AK.reduce(+, v, init=UInt32(0), dims=2) setup=(v = ArrayType(rand(UInt32(1):UInt32(100), n1, n2))))
+
+
+
+
+println("\n===\nBenchmarking mapreduce(identity, +, dims=1) on $n1 × $n2 Int64 - Base vs. AK")
+display(@benchmark Base.reduce(+, v, init=Int64(0), dims=1) setup=(v = ArrayType(rand(Int64(1):Int64(100), n1, n2))))
+display(@benchmark AK.reduce(+, v, init=Int64(0), dims=1) setup=(v = ArrayType(rand(Int64(1):Int64(100), n1, n2))))
+
+println("\n===\nBenchmarking mapreduce(identity, +, dims=2) on $n1 × $n2 Int64 - Base vs. AK")
+display(@benchmark Base.reduce(+, v, init=Int64(0), dims=2) setup=(v = ArrayType(rand(Int64(1):Int64(100), n1, n2))))
+display(@benchmark AK.reduce(+, v, init=Int64(0), dims=2) setup=(v = ArrayType(rand(Int64(1):Int64(100), n1, n2))))
+
+
+
+
+println("\n===\nBenchmarking mapreduce(identity, +, dims=1) on $n1 × $n2 Float32 - Base vs. AK")
+display(@benchmark Base.reduce(+, v, init=Float32(0), dims=1) setup=(v = ArrayType(rand(Float32, n1, n2))))
+display(@benchmark AK.reduce(+, v, init=Float32(0), dims=1) setup=(v = ArrayType(rand(Float32, n1, n2))))
+
+println("\n===\nBenchmarking mapreduce(identity, +, dims=2) on $n1 × $n2 Float32 - Base vs. AK")
+display(@benchmark Base.reduce(+, v, init=Float32(0), dims=2) setup=(v = ArrayType(rand(Float32, n1, n2))))
+display(@benchmark AK.reduce(+, v, init=Float32(0), dims=2) setup=(v = ArrayType(rand(Float32, n1, n2))))
+
+
+
+
+println("\n===\nBenchmarking mapreduce(sin, +, dims=1) on $n1 × $n2 Float32 - Base vs. AK")
+display(@benchmark Base.mapreduce(sin, +, v, init=Float32(0), dims=1) setup=(v = ArrayType(rand(Float32, n1, n2))))
+display(@benchmark AK.mapreduce(sin, +, v, init=Float32(0), dims=1) setup=(v = ArrayType(rand(Float32, n1, n2))))
+
+println("\n===\nBenchmarking mapreduce(sin, +, dims=2) on $n1 × $n2 Float32 - Base vs. AK")
+display(@benchmark Base.mapreduce(sin, +, v, init=Float32(0), dims=2) setup=(v = ArrayType(rand(Float32, n1, n2))))
+display(@benchmark AK.mapreduce(sin, +, v, init=Float32(0), dims=2) setup=(v = ArrayType(rand(Float32, n1, n2))))
diff --git a/benchmark/sort.jl b/benchmark/sort.jl
@@ -0,0 +1,53 @@
+import AcceleratedKernels as AK
+using KernelAbstractions
+
+using BenchmarkTools
+using Random
+Random.seed!(0)
+
+
+# Choose the Array backend:
+#
+# using CUDA
+# const ArrayType = CuArray
+#
+# using AMDGPU
+# const ArrayType = ROCArray
+#
+# using oneAPI
+# const ArrayType = oneArray
+#
+# using Metal
+# const ArrayType = MtlArray
+#
+# using OpenCL
+# const ArrayType = CLArray
+#
+const ArrayType = Array
+
+
+println("Using ArrayType: ", ArrayType)
+
+
+n = 1_000_000
+
+
+println("\n===\nBenchmarking sort! on $n UInt32 - Base vs. AK")
+display(@benchmark Base.sort!(v) setup=(v = ArrayType(rand(UInt32(1):UInt32(1_000_000), n))))
+display(@benchmark AK.sort!(v) setup=(v = ArrayType(rand(UInt32(1):UInt32(1_000_000), n))))
+
+
+println("\n===\nBenchmarking sort! on $n Int64 - Base vs. AK")
+display(@benchmark Base.sort!(v) setup=(v = ArrayType(rand(Int64(1):Int64(1_000_000), n))))
+display(@benchmark AK.sort!(v) setup=(v = ArrayType(rand(Int64(1):Int64(1_000_000), n))))
+
+
+println("\n===\nBenchmarking sort! on $n Float32 - Base vs. AK")
+display(@benchmark Base.sort!(v) setup=(v = ArrayType(rand(Float32, n))))
+display(@benchmark AK.sort!(v) setup=(v = ArrayType(rand(Float32, n))))
+
+
+println("\n===\nBenchmarking sort!(by=sin) on $n Float32 - Base vs. AK")
+display(@benchmark Base.sort!(v, by=sin) setup=(v = ArrayType(rand(Float32, n))))
+display(@benchmark AK.sort!(v, by=sin) setup=(v = ArrayType(rand(Float32, n))))
+
diff --git a/benchmark/sortperm.jl b/benchmark/sortperm.jl

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+[deps]`
	`2`	`+AcceleratedKernels = "6a4ca0a5-0e36-4168-a932-d9be78d558f1"`
	`3`	`+KernelAbstractions = "63c18a36-062a-441e-b654-da1e3ab1ce7c"`