Generate Slurm files dynamically and fix issues in venv.sh

kohankhaki · kohankhaki · commit 037f9d0f31ca · 2025-04-04T07:52:09.000-04:00
diff --git a/pyproject.toml b/pyproject.toml
@@ -5,7 +5,7 @@ description = "Efficient LLM inference on Slurm clusters using vLLM."
 readme = "README.md"
 authors = [{name = "Marshall Wang", email = "marshall.wang@vectorinstitute.ai"}]
 license = "MIT"
-requires-python = ">=3.10"
+requires-python = ">=3.10,<4.0"
 dependencies = [
     "requests>=2.31.0",
     "click>=8.1.0",
diff --git a/vec_inf/cli/_helper.py b/vec_inf/cli/_helper.py
@@ -16,6 +16,7 @@
 
 import vec_inf.cli._utils as utils
 from vec_inf.cli._config import ModelConfig
+from vec_inf.cli._slurm_script_generator import SlurmScriptGenerator
 
 
 VLLM_TASK_MAP = {
@@ -127,31 +128,7 @@ def _get_launch_params(self) -> dict[str, Any]:
 
     def set_env_vars(self) -> None:
         """Set environment variables for the launch command."""
-        os.environ["MODEL_NAME"] = self.model_name
-        os.environ["MAX_MODEL_LEN"] = self.params["max_model_len"]
-        os.environ["MAX_LOGPROBS"] = self.params["vocab_size"]
-        os.environ["DATA_TYPE"] = self.params["data_type"]
-        os.environ["MAX_NUM_SEQS"] = self.params["max_num_seqs"]
-        os.environ["GPU_MEMORY_UTILIZATION"] = self.params["gpu_memory_utilization"]
-        os.environ["TASK"] = VLLM_TASK_MAP[self.params["model_type"]]
-        os.environ["PIPELINE_PARALLELISM"] = self.params["pipeline_parallelism"]
-        os.environ["COMPILATION_CONFIG"] = self.params["compilation_config"]
-        os.environ["SRC_DIR"] = SRC_DIR
-        os.environ["MODEL_WEIGHTS"] = str(
-            Path(self.params["model_weights_parent_dir"], self.model_name)
-        )
         os.environ["LD_LIBRARY_PATH"] = LD_LIBRARY_PATH
-        os.environ["VENV_BASE"] = self.params["venv"]
-        os.environ["LOG_DIR"] = self.params["log_dir"]
-
-        if self.params.get("enable_prefix_caching"):
-            os.environ["ENABLE_PREFIX_CACHING"] = self.params["enable_prefix_caching"]
-        if self.params.get("enable_chunked_prefill"):
-            os.environ["ENABLE_CHUNKED_PREFILL"] = self.params["enable_chunked_prefill"]
-        if self.params.get("max_num_batched_tokens"):
-            os.environ["MAX_NUM_BATCHED_TOKENS"] = self.params["max_num_batched_tokens"]
-        if self.params.get("enforce_eager"):
-            os.environ["ENFORCE_EAGER"] = self.params["enforce_eager"]
 
     def build_launch_command(self) -> str:
         """Construct the full launch command with parameters."""
@@ -177,11 +154,19 @@ def build_launch_command(self) -> str:
             ]
         )
         # Add slurm script
-        slurm_script = "vllm.slurm"
-        if int(self.params["num_nodes"]) > 1:
-            slurm_script = "multinode_vllm.slurm"
-        command_list.append(f"{SRC_DIR}/{slurm_script}")
+        # slurm_script = "vllm.slurm"
+        # if int(self.params["num_nodes"]) > 1:
+        #     slurm_script = "multinode_vllm.slurm"
+        # command_list.append(f"{SRC_DIR}/{slurm_script}")
+
+        slurm_script_path = SlurmScriptGenerator(
+            self.params, src_dir=SRC_DIR, is_multinode=int(self.params["num_nodes"]) > 1
+        ).write_to_log_dir()
+
+        command_list.append(str(slurm_script_path))
         return " ".join(command_list)
+    
+    
 
     def format_table_output(self, job_id: str) -> Table:
         """Format output as rich Table."""
@@ -214,7 +199,7 @@ def format_table_output(self, job_id: str) -> Table:
             )
         if self.params.get("enforce_eager"):
             table.add_row("Enforce Eager", self.params["enforce_eager"])
-        table.add_row("Model Weights Directory", os.environ.get("MODEL_WEIGHTS"))
+        table.add_row("Model Weights Directory", str(Path(self.params["model_weights_parent_dir"], self.model_name)))
         table.add_row("Log Directory", self.params["log_dir"])
 
         return table
diff --git a/vec_inf/cli/_slurm_script_generator.py b/vec_inf/cli/_slurm_script_generator.py
@@ -0,0 +1,195 @@
+from pathlib import Path
+
+VLLM_TASK_MAP = {
+    "LLM": "generate",
+    "VLM": "generate",
+    "Text_Embedding": "embed",
+    "Reward_Modeling": "reward",
+}
+
+class SlurmScriptGenerator:
+    def __init__(self, params: dict, src_dir: str, is_multinode: bool = False):
+        self.params = params
+        self.src_dir = src_dir
+        self.is_multinode = is_multinode
+        self.model_weights_path = Path(params["model_weights_parent_dir"], params["model_name"])
+        self.task = VLLM_TASK_MAP[self.params["model_type"]]
+
+    def _generate_script_content(self) -> str:
+        return self._generate_multinode_script() if self.is_multinode else self._generate_single_node_script()
+
+    def _generate_preamble(self, is_multinode: bool = False) -> str:
+        base = [
+            "#!/bin/bash",
+            "#SBATCH --cpus-per-task=16",
+            "#SBATCH --mem=64G",
+        ]
+        if is_multinode:
+            base += [
+                "#SBATCH --exclusive",
+                "#SBATCH --tasks-per-node=1",
+            ]
+        base += [f"source {self.src_dir}/find_port.sh", ""]
+        return "\n".join(base)
+
+    def _export_parallel_vars(self) -> str:
+        if self.is_multinode:
+            return """if [ "$PIPELINE_PARALLELISM" = "True" ]; then
+export PIPELINE_PARALLEL_SIZE=$SLURM_JOB_NUM_NODES
+export TENSOR_PARALLEL_SIZE=$SLURM_GPUS_PER_NODE
+else
+export PIPELINE_PARALLEL_SIZE=1
+export TENSOR_PARALLEL_SIZE=$((SLURM_JOB_NUM_NODES*SLURM_GPUS_PER_NODE))
+fi
+"""
+        else:
+            return "export TENSOR_PARALLEL_SIZE=$SLURM_GPUS_PER_NODE\n"
+
+    def _generate_shared_args(self) -> list[str]:
+        args = [
+            f"--model {self.model_weights_path} \\",
+            f"--served-model-name {self.params['model_name']} \\",
+            "--host \"0.0.0.0\" \\",
+            "--port $vllm_port_number \\",
+            "--tensor-parallel-size ${TENSOR_PARALLEL_SIZE} \\",
+            f"--dtype {self.params['data_type']} \\",
+            "--trust-remote-code \\",
+            f"--max-logprobs {self.params['vocab_size']} \\",
+            f"--max-model-len {self.params['max_model_len']} \\",
+            f"--max-num-seqs {self.params['max_num_seqs']} \\",
+            f"--gpu-memory-utilization {self.params['gpu_memory_utilization']} \\",
+            f"--compilation-config {self.params['compilation_config']} \\",
+            f"--task {self.task} \\",
+        ]
+        if self.is_multinode:
+            args.insert(4, "--pipeline-parallel-size ${PIPELINE_PARALLEL_SIZE} \\")
+        if self.params.get("max_num_batched_tokens"):
+            args.append(f"--max-num-batched-tokens={self.params['max_num_batched_tokens']} \\")
+        if self.params.get("enable_prefix_caching") == "True":
+            args.append("--enable-prefix-caching \\")
+        if self.params.get("enable_chunked_prefill") == "True":
+            args.append("--enable-chunked-prefill \\")
+        if self.params.get("enforce_eager") == "True":
+            args.append("--enforce-eager")
+
+        return args
+
+    def _generate_single_node_script(self) -> str:
+        preamble = self._generate_preamble(is_multinode=False)
+
+        server = f"""hostname=${{SLURMD_NODENAME}}
+vllm_port_number=$(find_available_port ${{hostname}} 8080 65535)
+
+SERVER_ADDR="http://${{hostname}}:${{vllm_port_number}}/v1"
+echo "Server address: $SERVER_ADDR"
+
+JSON_PATH="{self.params['log_dir']}/{self.params['model_name']}.$SLURM_JOB_ID/{self.params['model_name']}.$SLURM_JOB_ID.json"
+echo "Updating server address in $JSON_PATH"
+jq --arg server_addr "$SERVER_ADDR" \\
+    '. + {{"server_address": $server_addr}}' \\
+    "$JSON_PATH" > temp.json \\
+    && mv temp.json "$JSON_PATH" \\
+    && rm -f temp.json
+"""
+
+        env_exports = self._export_parallel_vars()
+
+        if self.params["venv"] == "singularity":
+            launcher = f"""export SINGULARITY_IMAGE=/model-weights/vec-inf-shared/vector-inference_latest.sif
+export VLLM_NCCL_SO_PATH=/vec-inf/nccl/libnccl.so.2.18.1
+module load singularity-ce/3.8.2
+singularity exec $SINGULARITY_IMAGE ray stop
+singularity exec --nv --bind {self.model_weights_path}:{self.model_weights_path} $SINGULARITY_IMAGE \\
+python3.10 -m vllm.entrypoints.openai.api_server \\
+"""
+        else:
+            launcher = f"""source {self.params['venv']}/bin/activate
+python3 -m vllm.entrypoints.openai.api_server \\
+"""
+
+        args = "\n".join(self._generate_shared_args())
+        return preamble + server + env_exports + launcher + args
+    
+    
+    def _generate_multinode_script(self) -> str:
+        preamble = self._generate_preamble(is_multinode=True)
+
+        cluster_setup = []
+        if self.params["venv"] == "singularity":
+            cluster_setup.append(f"""export SINGULARITY_IMAGE=/model-weights/vec-inf-shared/vector-inference_latest.sif
+export VLLM_NCCL_SO_PATH=/vec-inf/nccl/libnccl.so.2.18.1
+module load singularity-ce/3.8.2
+singularity exec $SINGULARITY_IMAGE ray stop
+""")
+
+        cluster_setup.append(f"""nodes=$(scontrol show hostnames "${{SLURM_JOB_NODELIST}}")
+nodes_array=(${{nodes}})
+
+head_node=${{nodes_array[0]}}
+head_node_ip=$(srun --nodes=1 --ntasks=1 -w "$head_node" hostname --ip-address)
+
+head_node_port=$(find_available_port $head_node_ip 8080 65535)
+vllm_port_number=$(find_available_port $head_node_ip 8080 65535)
+
+ip_head=$head_node_ip:$head_node_port
+export ip_head
+echo "IP Head: $ip_head"
+                             
+echo "Starting HEAD at $head_node"
+srun --nodes=1 --ntasks=1 -w "$head_node" \\""")
+
+        if self.params["venv"] == "singularity":
+            cluster_setup.append(f"""    singularity exec --nv --bind {self.model_weights_path}:{self.model_weights_path} $SINGULARITY_IMAGE \\""")
+
+        cluster_setup.append(f"""    ray start --head --node-ip-address="$head_node_ip" --port=$head_node_port \\
+    --num-cpus "${{SLURM_CPUS_PER_TASK}}" --num-gpus "${{SLURM_GPUS_PER_NODE}}" --block &
+
+sleep 10
+worker_num=$((SLURM_JOB_NUM_NODES - 1))
+
+for ((i = 1; i <= worker_num; i++)); do
+    node_i=${{nodes_array[$i]}}
+    echo "Starting WORKER $i at $node_i"
+    srun --nodes=1 --ntasks=1 -w "$node_i" \\""")
+
+        if self.params["venv"] == "singularity":
+            cluster_setup.append(f"""        singularity exec --nv --bind {self.model_weights_path}:{self.model_weights_path} $SINGULARITY_IMAGE \\""")
+        cluster_setup.append(f"""        ray start --address "$ip_head" \\
+        --num-cpus "${{SLURM_CPUS_PER_TASK}}" --num-gpus "${{SLURM_GPUS_PER_NODE}}" --block &
+    sleep 5
+done
+
+SERVER_ADDR="http://$head_node_ip:$vllm_port_number/v1"
+echo "Server address: $SERVER_ADDR"
+
+JSON_PATH="{self.params['log_dir']}/{self.params['model_name']}.$SLURM_JOB_ID/{self.params['model_name']}.$SLURM_JOB_ID.json"
+echo "Updating server address in $JSON_PATH"
+jq --arg server_addr "$SERVER_ADDR" \\
+    '. + {{"server_address": $server_addr}}' \\
+    "$JSON_PATH" > temp.json \\
+    && mv temp.json "$JSON_PATH" \\
+    && rm -f temp.json                       
+""")
+        cluster_setup = "\n".join(cluster_setup)
+        env_exports = self._export_parallel_vars()
+
+
+        if self.params["venv"] == "singularity":
+            launcher = f"""singularity exec --nv --bind {self.model_weights_path}:{self.model_weights_path} $SINGULARITY_IMAGE \\
+python3.10 -m vllm.entrypoints.openai.api_server \\
+"""
+        else:
+            launcher = f"""source {self.params['venv']}/bin/activate
+python3 -m vllm.entrypoints.openai.api_server \\
+"""
+
+        args = "\n".join(self._generate_shared_args())
+        return preamble + cluster_setup + env_exports + launcher + args
+
+    def write_to_log_dir(self) -> Path:
+        log_subdir = Path(self.params["log_dir"]) / self.params["model_name"]
+        log_subdir.mkdir(parents=True, exist_ok=True)
+        script_path = log_subdir / "launch.slurm"
+        content = self._generate_script_content()
+        script_path.write_text(content)
+        return script_path
diff --git a/venv.sh b/venv.sh
@@ -1,8 +1,8 @@
-#!bin/bash
+#!/bin/bash
 
 # Load python module if you are on Vector cluster and install poetry
 module load python/3.10.12
-pip install poetry
+pip3 install poetry
 
 # Optional: it's recommended to change the cache directory to somewhere in the scratch space to avoid
 # running out of space in your home directory, below is an example for the Vector cluster
@@ -13,11 +13,14 @@ export POETRY_CACHE_DIR=/scratch/ssd004/scratch/$(whoami)/poetry_cache
 # poetry config cache-dir
 echo "Cache directory set to: $(poetry config cache-dir)"
 
+echo "📜 Telling Poetry to use Python 3.10..."
+poetry env use python3.10
+
 # Install dependencies via poetry
 poetry install
 
 # Activate the virtual environment
-poetry shell
+# poetry shell
 
 # Deactivate the virtual environment
 # deactivate