How to preallocate KV cache for parallel requests in llama-server? #17521

lostmsu · 2025-11-26T15:14:47Z

lostmsu
Nov 26, 2025

Right now I use gpt-oss and

--ctx-size 0
--kv-unified
--parallel 8

That results in llama-server allocating exactly 128K KV slots (the context size of gpt-oss). But these are going to be shared between the parallel requests. How can I instead preallocate 256K KV slots to be shared by up to 8 parallel requests, but limit each request to 128K?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

How to preallocate KV cache for parallel requests in llama-server? #17521

Uh oh!

{{title}}

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

How to preallocate KV cache for parallel requests in llama-server? #17521

Uh oh!

lostmsu Nov 26, 2025

Replies: 0 comments

lostmsu
Nov 26, 2025