Add remaining vLLM short long option name mapping, use 'vllm serve' for launch in place of the old command

XkunW · XkunW · commit 75e0ae1f63ba · 2025-05-20T15:10:08.000-04:00
diff --git a/vec_inf/client/_client_vars.py b/vec_inf/client/_client_vars.py
@@ -78,7 +78,12 @@
 VLLM_SHORT_TO_LONG_MAP = {
     "-tp": "--tensor-parallel-size",
     "-pp": "--pipeline-parallel-size",
+    "-dp": "--data-parallel-size",
+    "-dpl": "--data-parallel-size-local",
+    "-dpa": "--data-parallel-address",
+    "-dpp": "--data-parallel-rpc-port",
     "-O": "--compilation-config",
+    "-q": "--quantization",
 }
 
 
@@ -214,7 +219,7 @@ class SlurmScriptTemplate(TypedDict):
         '    && mv temp.json "$json_path"',
     ],
     "launch_cmd": [
-        "python3.10 -m vllm.entrypoints.openai.api_server \\",
+        "vllm serve \\",
         "    --model {model_weights_path} \\",
         "    --served-model-name {model_name} \\",
         '    --host "0.0.0.0" \\',