Add new CLI options for prefix caching, chunked prefill, and max batched tokens

fcogidi · fcogidi · commit 2607f0df2fae · 2025-03-14T15:30:02.000-04:00
diff --git a/vec_inf/cli/_cli.py b/vec_inf/cli/_cli.py
@@ -39,6 +39,21 @@ def cli() -> None:
     type=float,
     help="GPU memory utilization, default to 0.9",
 )
+@click.option(
+    "--enable-prefix-caching",
+    type=click.Choice(["True", "False"]),
+    help="Enables automatic prefix caching, accepts 'True' or 'False', default to 'False'",
+)
+@click.option(
+    "--enable-chunked-prefill",
+    type=click.Choice(["True", "False"]),
+    help="Enable chunked prefill, accepts 'True' or 'False', default to 'True' if max-num-seqs > 32k, else 'False'",
+)
+@click.option(
+    "--max-num-batched-tokens",
+    type=int,
+    help="Maximum number of batched tokens per iteration, defaults to min(2048, max-num-seqs), pairs with --enable-chunked-prefill to control the batch size at the prefill stage",
+)
 @click.option(
     "--partition",
     type=str,
@@ -90,6 +105,11 @@ def cli() -> None:
     type=str,
     help="Enable pipeline parallelism, accepts 'True' or 'False', default to 'True' for supported models",
 )
+@click.option(
+    "--compilation-config",
+    type=click.Choice(["0", "3"]),
+    help="torch.compile optimization level, accepts '0' or '3', default to '0', which means no optimization is applied",
+)
 @click.option(
     "--enforce-eager",
     type=str,
diff --git a/vec_inf/cli/_config.py b/vec_inf/cli/_config.py
@@ -47,6 +47,12 @@ class ModelConfig(BaseModel):
     max_num_seqs: int = Field(
         default=256, gt=0, le=1024, description="Maximum concurrent request sequences"
     )
+    max_num_batched_tokens: int = Field(
+        default=2048,
+        gt=0,
+        le=1_000_000,
+        description="Maximum batched tokens per iteration",
+    )
     gpu_memory_utilization: float = Field(
         default=0.9, gt=0.0, le=1.0, description="GPU memory utilization"
     )
diff --git a/vec_inf/cli/_helper.py b/vec_inf/cli/_helper.py
@@ -87,7 +87,12 @@ def _get_launch_params(self) -> dict[str, Any]:
         params = self.model_config.model_dump()
 
         # Process boolean fields
-        for bool_field in ["pipeline_parallelism", "enforce_eager"]:
+        for bool_field in [
+            "pipeline_parallelism",
+            "enforce_eager",
+            "enable_prefix_caching",
+            "enable_chunked_prefill",
+        ]:
             if (value := self.cli_kwargs.get(bool_field)) is not None:
                 params[bool_field] = utils.convert_boolean_value(value)
 
@@ -97,9 +102,25 @@ def _get_launch_params(self) -> dict[str, Any]:
                 "json_mode",
                 "pipeline_parallelism",
                 "enforce_eager",
+                "enable_prefix_caching",
+                "enable_chunked_prefill",
             ]:
                 params[key] = value
 
+        if "compilation_config" not in params:
+            params["compilation_config"] = "0"
+        if "enable_prefix_caching" not in params:
+            params["enable_prefix_caching"] = False
+        if "enable_chunked_prefill" not in params:
+            params["enable_chunked_prefill"] = False
+
+        if params["max_model_len"] > 32_000:  # this is the default behavior of vLLM
+            params["enable_chunked_prefill"] = True
+
+        params["max_num_batched_tokens"] = min(
+            params["max_num_batched_tokens"], params["max_model_len"]
+        )
+
         # Validate required fields
         if not REQUIRED_FIELDS.issubset(set(params.keys())):
             raise click.ClickException(
@@ -126,6 +147,10 @@ def set_env_vars(self) -> None:
         os.environ["GPU_MEMORY_UTILIZATION"] = self.params["gpu_memory_utilization"]
         os.environ["TASK"] = VLLM_TASK_MAP[self.params["model_type"]]
         os.environ["PIPELINE_PARALLELISM"] = self.params["pipeline_parallelism"]
+        os.environ["ENABLE_PREFIX_CACHING"] = self.params["enable_prefix_caching"]
+        os.environ["ENABLE_CHUNKED_PREFILL"] = self.params["enable_chunked_prefill"]
+        os.environ["MAX_NUM_BATCHED_TOKENS"] = self.params["max_num_batched_tokens"]
+        os.environ["COMPILATION_CONFIG"] = self.params["compilation_config"]
         os.environ["ENFORCE_EAGER"] = self.params["enforce_eager"]
         os.environ["SRC_DIR"] = SRC_DIR
         os.environ["MODEL_WEIGHTS"] = str(
@@ -183,6 +208,10 @@ def format_table_output(self, job_id: str) -> Table:
         table.add_row("Max Num Seqs", self.params["max_num_seqs"])
         table.add_row("GPU Memory Utilization", self.params["gpu_memory_utilization"])
         table.add_row("Pipeline Parallelism", self.params["pipeline_parallelism"])
+        table.add_row("Enable Prefix Caching", self.params["enable_prefix_caching"])
+        table.add_row("Enable Chunked Prefill", self.params["enable_chunked_prefill"])
+        table.add_row("Max Num Batched Tokens", self.params["max_num_batched_tokens"])
+        table.add_row("Compilation Config", self.params["compilation_config"])
         table.add_row("Enforce Eager", self.params["enforce_eager"])
         table.add_row("Model Weights Directory", os.environ.get("MODEL_WEIGHTS"))
         table.add_row("Log Directory", self.params["log_dir"])
diff --git a/vec_inf/cli/_utils.py b/vec_inf/cli/_utils.py
@@ -174,6 +174,14 @@ def get_latest_metric(log_lines: list[str]) -> Union[str, dict[str, str]]:
                     key, value = metric.split(": ")
                     latest_metric[key] = value
                 break
+            if "Prefix cache hit rate" in line:
+                # Parse the metric values from the line
+                metrics_str = line.split("] ")[1].strip()
+                prefix, metrics_str = metrics_str.split(": ", 1)
+                metrics_list = metrics_str.split(", ")
+                for metric in metrics_list:
+                    key, value = metric.split(": ")
+                    latest_metric[f"{key} {prefix}"] = value
     except Exception as e:
         return f"[red]Error reading log file: {e}[/red]"
 
diff --git a/vec_inf/multinode_vllm.slurm b/vec_inf/multinode_vllm.slurm
@@ -90,6 +90,18 @@ else
     export ENFORCE_EAGER=""
 fi
 
+if [ "$ENABLE_PREFIX_CACHING" = "True" ]; then
+    export ENABLE_PREFIX_CACHING="--enable-prefix-caching"
+else
+    export ENABLE_PREFIX_CACHING="--no-enable-prefix-caching"
+fi
+
+if [ "$ENABLE_CHUNKED_PREFILL" = "True" ]; then
+    export ENABLE_CHUNKED_PREFILL="--enable-chunked-prefill"
+else
+    export ENABLE_CHUNKED_PREFILL=""
+fi
+
 # Activate vllm venv
 if [ "$VENV_BASE" = "singularity" ]; then
     singularity exec --nv --bind ${MODEL_WEIGHTS}:${MODEL_WEIGHTS} $SINGULARITY_IMAGE \
@@ -105,8 +117,11 @@ if [ "$VENV_BASE" = "singularity" ]; then
     --max-logprobs ${MAX_LOGPROBS} \
     --max-model-len ${MAX_MODEL_LEN} \
     --max-num-seqs ${MAX_NUM_SEQS} \
-    --gpu-memory-utilization ${GPU_MEMORY_UTILIZATION} \
+    --max-num-batched-tokens ${MAX_NUM_BATCHED_TOKENS} \
+    --compilation-config ${COMPILATION_CONFIG} \
     --task ${TASK} \
+    ${ENABLE_PREFIX_CACHING} \
+    ${ENABLE_CHUNKED_PREFILL} \
     ${ENFORCE_EAGER}
 else
     source ${VENV_BASE}/bin/activate
@@ -123,6 +138,10 @@ else
     --max-model-len ${MAX_MODEL_LEN} \
     --max-num-seqs ${MAX_NUM_SEQS} \
     --gpu-memory-utilization ${GPU_MEMORY_UTILIZATION} \
+    --max-num-batched-tokens ${MAX_NUM_BATCHED_TOKENS} \
+    --compilation-config ${COMPILATION_CONFIG} \
     --task ${TASK} \
+    ${ENABLE_PREFIX_CACHING} \
+    ${ENABLE_CHUNKED_PREFILL} \
     ${ENFORCE_EAGER}
 fi
diff --git a/vec_inf/vllm.slurm b/vec_inf/vllm.slurm
@@ -23,6 +23,18 @@ else
     export ENFORCE_EAGER=""
 fi
 
+if [ "$ENABLE_PREFIX_CACHING" = "True" ]; then
+    export ENABLE_PREFIX_CACHING="--enable-prefix-caching"
+else
+    export ENABLE_PREFIX_CACHING="--no-enable-prefix-caching"
+fi
+
+if [ "$ENABLE_CHUNKED_PREFILL" = "True" ]; then
+    export ENABLE_CHUNKED_PREFILL="--enable-chunked-prefill"
+else
+    export ENABLE_CHUNKED_PREFILL=""
+fi
+
 # Activate vllm venv
 if [ "$VENV_BASE" = "singularity" ]; then
     export SINGULARITY_IMAGE=/model-weights/vec-inf-shared/vector-inference_latest.sif
@@ -42,8 +54,13 @@ if [ "$VENV_BASE" = "singularity" ]; then
     --max-model-len ${MAX_MODEL_LEN} \
     --max-num-seqs ${MAX_NUM_SEQS} \
     --gpu-memory-utilization ${GPU_MEMORY_UTILIZATION} \
+    --max-num-batched-tokens ${MAX_NUM_BATCHED_TOKENS} \
+    --compilation-config ${COMPILATION_CONFIG} \
     --task ${TASK} \
+    ${ENABLE_PREFIX_CACHING} \
+    ${ENABLE_CHUNKED_PREFILL} \
     ${ENFORCE_EAGER}
+
 else
     source ${VENV_BASE}/bin/activate
     python3 -m vllm.entrypoints.openai.api_server \
@@ -58,6 +75,10 @@ else
     --max-model-len ${MAX_MODEL_LEN} \
     --max-num-seqs ${MAX_NUM_SEQS} \
     --gpu-memory-utilization ${GPU_MEMORY_UTILIZATION} \
+    --max-num-batched-tokens ${MAX_NUM_BATCHED_TOKENS} \
+    --compilation-config ${COMPILATION_CONFIG} \
     --task ${TASK} \
+    ${ENABLE_PREFIX_CACHING} \
+    ${ENABLE_CHUNKED_PREFILL} \
     ${ENFORCE_EAGER}
 fi

Original file line number	Diff line number	Diff line change
`@@ -47,6 +47,12 @@ class ModelConfig(BaseModel):`
`47`	`47`	`max_num_seqs: int = Field(`
`48`	`48`	`default=256, gt=0, le=1024, description="Maximum concurrent request sequences"`
`49`	`49`	`)`
	`50`	`+ max_num_batched_tokens: int = Field(`
	`51`	`+ default=2048,`
	`52`	`+ gt=0,`
	`53`	`+ le=1_000_000,`
	`54`	`+ description="Maximum batched tokens per iteration",`
	`55`	`+ )`
`50`	`56`	`gpu_memory_utilization: float = Field(`
`51`	`57`	`default=0.9, gt=0.0, le=1.0, description="GPU memory utilization"`
`52`	`58`	`)`