VectorInstitute
diff --git a/‎vec_inf/cli/_helper.py‎
Lines changed: 1 addition & 1 deletion b/‎vec_inf/cli/_helper.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎vec_inf/cli/_slurm_script_generator.py‎
Lines changed: 71 additions & 86 deletions b/‎vec_inf/cli/_slurm_script_generator.py‎
Lines changed: 71 additions & 86 deletions
@@ -155,7 +155,7 @@ def build_launch_command(self) -> str:
         )
 
         slurm_script_path = SlurmScriptGenerator(
-            self.params, src_dir=SRC_DIR, is_multinode=int(self.params["num_nodes"]) > 1
+            self.params, src_dir=SRC_DIR
         ).write_to_log_dir()
 
         command_list.append(str(slurm_script_path))
 
@@ -1,4 +1,6 @@
+from datetime import datetime
 from pathlib import Path
+from typing import Any
 
 
 VLLM_TASK_MAP = {
@@ -10,49 +12,51 @@
 
 
 class SlurmScriptGenerator:
-    def __init__(self, params: dict, src_dir: str, is_multinode: bool = False):
+    def __init__(self, params: dict[str, Any], src_dir: str):
         self.params = params
         self.src_dir = src_dir
-        self.is_multinode = is_multinode
-        self.model_weights_path = Path(
-            params["model_weights_parent_dir"], params["model_name"]
+        self.is_multinode = int(self.params["num_nodes"]) > 1
+        self.model_weights_path = str(
+            Path(params["model_weights_parent_dir"], params["model_name"])
         )
         self.task = VLLM_TASK_MAP[self.params["model_type"]]
 
     def _generate_script_content(self) -> str:
-        return (
-            self._generate_multinode_script()
-            if self.is_multinode
-            else self._generate_single_node_script()
-        )
+        preamble = self._generate_preamble()
+        server = self._generate_server_script()
+        env_exports = self._export_parallel_vars()
+        launcher = self._generate_launcher()
+        args = self._generate_shared_args()
+        return preamble + server + env_exports + launcher + args
 
-    def _generate_preamble(self, is_multinode: bool = False) -> str:
+    def _generate_preamble(self) -> str:
         base = [
             "#!/bin/bash",
             "#SBATCH --cpus-per-task=16",
             "#SBATCH --mem=64G",
         ]
-        if is_multinode:
+        if self.is_multinode:
             base += [
                 "#SBATCH --exclusive",
                 "#SBATCH --tasks-per-node=1",
             ]
-        base += [f"source {self.src_dir}/find_port.sh", ""]
+        base += [""]
         return "\n".join(base)
 
     def _export_parallel_vars(self) -> str:
         if self.is_multinode:
             return """if [ "$PIPELINE_PARALLELISM" = "True" ]; then
-export PIPELINE_PARALLEL_SIZE=$SLURM_JOB_NUM_NODES
-export TENSOR_PARALLEL_SIZE=$SLURM_GPUS_PER_NODE
+    export PIPELINE_PARALLEL_SIZE=$SLURM_JOB_NUM_NODES
+    export TENSOR_PARALLEL_SIZE=$SLURM_GPUS_PER_NODE
 else
-export PIPELINE_PARALLEL_SIZE=1
-export TENSOR_PARALLEL_SIZE=$((SLURM_JOB_NUM_NODES*SLURM_GPUS_PER_NODE))
+    export PIPELINE_PARALLEL_SIZE=1
+    export TENSOR_PARALLEL_SIZE=$((SLURM_JOB_NUM_NODES*SLURM_GPUS_PER_NODE))
 fi
+
 """
-        return "export TENSOR_PARALLEL_SIZE=$SLURM_GPUS_PER_NODE\n"
+        return "export TENSOR_PARALLEL_SIZE=$SLURM_GPUS_PER_NODE\n\n"
 
-    def _generate_shared_args(self) -> list[str]:
+    def _generate_shared_args(self) -> str:
         args = [
             f"--model {self.model_weights_path} \\",
             f"--served-model-name {self.params['model_name']} \\",
@@ -81,56 +85,44 @@ def _generate_shared_args(self) -> list[str]:
         if self.params.get("enforce_eager") == "True":
             args.append("--enforce-eager")
 
-        return args
-
-    def _generate_single_node_script(self) -> str:
-        preamble = self._generate_preamble(is_multinode=False)
-
-        server = f"""hostname=${{SLURMD_NODENAME}}
-vllm_port_number=$(find_available_port ${{hostname}} 8080 65535)
-
-SERVER_ADDR="http://${{hostname}}:${{vllm_port_number}}/v1"
-echo "Server address: $SERVER_ADDR"
+        return "\n".join(args)
 
+    def _generate_server_script(self) -> str:
+        server_script = [""]
+        if self.params["venv"] == "singularity":
+            server_script.append("""export SINGULARITY_IMAGE=/model-weights/vec-inf-shared/vector-inference_latest.sif
+export VLLM_NCCL_SO_PATH=/vec-inf/nccl/libnccl.so.2.18.1
+module load singularity-ce/3.8.2
+singularity exec $SINGULARITY_IMAGE ray stop
+""")
+        server_script.append(f"source {self.src_dir}/find_port.sh\n")
+        server_script.append(
+            self._generate_multinode_server_script()
+            if self.is_multinode
+            else self._generate_single_node_server_script()
+        )
+        server_script.append(f"""echo "Updating server address in $JSON_PATH"
 JSON_PATH="{self.params["log_dir"]}/{self.params["model_name"]}.$SLURM_JOB_ID/{self.params["model_name"]}.$SLURM_JOB_ID.json"
-echo "Updating server address in $JSON_PATH"
 jq --arg server_addr "$SERVER_ADDR" \\
     '. + {{"server_address": $server_addr}}' \\
     "$JSON_PATH" > temp.json \\
     && mv temp.json "$JSON_PATH" \\
     && rm -f temp.json
-"""
 
-        env_exports = self._export_parallel_vars()
-
-        if self.params["venv"] == "singularity":
-            launcher = f"""export SINGULARITY_IMAGE=/model-weights/vec-inf-shared/vector-inference_latest.sif
-export VLLM_NCCL_SO_PATH=/vec-inf/nccl/libnccl.so.2.18.1
-module load singularity-ce/3.8.2
-singularity exec $SINGULARITY_IMAGE ray stop
-singularity exec --nv --bind {self.model_weights_path}:{self.model_weights_path} $SINGULARITY_IMAGE \\
-python3.10 -m vllm.entrypoints.openai.api_server \\
-"""
-        else:
-            launcher = f"""source {self.params["venv"]}/bin/activate
-python3 -m vllm.entrypoints.openai.api_server \\
-"""
-
-        args = "\n".join(self._generate_shared_args())
-        return preamble + server + env_exports + launcher + args
+""")
+        return "\n".join(server_script)
 
-    def _generate_multinode_script(self) -> str:
-        preamble = self._generate_preamble(is_multinode=True)
+    def _generate_single_node_server_script(self) -> str:
+        return """hostname=${SLURMD_NODENAME}
+vllm_port_number=$(find_available_port ${hostname} 8080 65535)
 
-        cluster_setup = []
-        if self.params["venv"] == "singularity":
-            cluster_setup.append("""export SINGULARITY_IMAGE=/model-weights/vec-inf-shared/vector-inference_latest.sif
-export VLLM_NCCL_SO_PATH=/vec-inf/nccl/libnccl.so.2.18.1
-module load singularity-ce/3.8.2
-singularity exec $SINGULARITY_IMAGE ray stop
-""")
+SERVER_ADDR="http://${hostname}:${vllm_port_number}/v1"
+echo "Server address: $SERVER_ADDR"
+"""
 
-        cluster_setup.append("""nodes=$(scontrol show hostnames "$SLURM_JOB_NODELIST")
+    def _generate_multinode_server_script(self) -> str:
+        server_script = []
+        server_script.append("""nodes=$(scontrol show hostnames "$SLURM_JOB_NODELIST")
 nodes_array=($nodes)
 
 head_node=${nodes_array[0]}
@@ -146,11 +138,11 @@ def _generate_multinode_script(self) -> str:
 srun --nodes=1 --ntasks=1 -w "$head_node" \\""")
 
         if self.params["venv"] == "singularity":
-            cluster_setup.append(
-                f"""    singularity exec --nv --bind {self.model_weights_path}:{self.model_weights_path} $SINGULARITY_IMAGE \\"""
+            server_script.append(
+                f"    singularity exec --nv --bind {self.model_weights_path}:{self.model_weights_path} $SINGULARITY_IMAGE \\"
             )
 
-        cluster_setup.append("""    ray start --head --node-ip-address="$head_node_ip" --port=$head_node_port \\
+        server_script.append("""    ray start --head --node-ip-address="$head_node_ip" --port=$head_node_port \\
     --num-cpus "${SLURM_CPUS_PER_TASK}" --num-gpus "${SLURM_GPUS_PER_NODE}" --block &
 
 sleep 10
@@ -162,48 +154,41 @@ def _generate_multinode_script(self) -> str:
     srun --nodes=1 --ntasks=1 -w "$node_i" \\""")
 
         if self.params["venv"] == "singularity":
-            cluster_setup.append(
+            server_script.append(
                 f"""        singularity exec --nv --bind {self.model_weights_path}:{self.model_weights_path} $SINGULARITY_IMAGE \\"""
             )
-        cluster_setup.append(f"""        ray start --address "$ip_head" \\
-        --num-cpus "${{SLURM_CPUS_PER_TASK}}" --num-gpus "${{SLURM_GPUS_PER_NODE}}" --block &
+        server_script.append("""        ray start --address "$ip_head" \\
+        --num-cpus "${SLURM_CPUS_PER_TASK}" --num-gpus "${SLURM_GPUS_PER_NODE}" --block &
     sleep 5
 done
 
-
 vllm_port_number=$(find_available_port $head_node_ip 8080 65535)
 
-
-SERVER_ADDR="http://${{head_node_ip}}:${{vllm_port_number}}/v1"
+SERVER_ADDR="http://${head_node_ip}:${vllm_port_number}/v1"
 echo "Server address: $SERVER_ADDR"
 
-JSON_PATH="{self.params["log_dir"]}/{self.params["model_name"]}.$SLURM_JOB_ID/{self.params["model_name"]}.$SLURM_JOB_ID.json"
-echo "Updating server address in $JSON_PATH"
-jq --arg server_addr "$SERVER_ADDR" \\
-    '. + {{"server_address": $server_addr}}' \\
-    "$JSON_PATH" > temp.json \\
-    && mv temp.json "$JSON_PATH" \\
-    && rm -f temp.json
 """)
-        cluster_setup = "\n".join(cluster_setup)
-        env_exports = self._export_parallel_vars()
+        return "\n".join(server_script)
 
+    def _generate_launcher(self) -> str:
         if self.params["venv"] == "singularity":
-            launcher = f"""singularity exec --nv --bind {self.model_weights_path}:{self.model_weights_path} $SINGULARITY_IMAGE \\
-python3.10 -m vllm.entrypoints.openai.api_server \\
-"""
+            launcher_script = [
+                f"""singularity exec --nv --bind {self.model_weights_path}:{self.model_weights_path} $SINGULARITY_IMAGE \\"""
+            ]
         else:
-            launcher = f"""source {self.params["venv"]}/bin/activate
-python3 -m vllm.entrypoints.openai.api_server \\
-"""
-
-        args = "\n".join(self._generate_shared_args())
-        return preamble + cluster_setup + env_exports + launcher + args
+            launcher_script = [f"""source {self.params["venv"]}/bin/activate"""]
+        launcher_script.append(
+            """python3.10 -m vllm.entrypoints.openai.api_server \\\n"""
+        )
+        return "\n".join(launcher_script)
 
     def write_to_log_dir(self) -> Path:
-        log_subdir = Path(self.params["log_dir"]) / self.params["model_name"]
+        log_subdir: Path = Path(self.params["log_dir"]) / self.params["model_name"]
         log_subdir.mkdir(parents=True, exist_ok=True)
-        script_path = log_subdir / "launch.slurm"
+
+        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
+        script_path: Path = log_subdir / f"launch_{timestamp}.slurm"
+
         content = self._generate_script_content()
         script_path.write_text(content)
         return script_path
Original file line number	Diff line number	Diff line change
`@@ -155,7 +155,7 @@ def build_launch_command(self) -> str:`
`155`	`155`	`)`
`156`	`156`
`157`	`157`	`slurm_script_path = SlurmScriptGenerator(`
`158`		`- self.params, src_dir=SRC_DIR, is_multinode=int(self.params["num_nodes"]) > 1`
	`158`	`+ self.params, src_dir=SRC_DIR`
`159`	`159`	`).write_to_log_dir()`
`160`	`160`
`161`	`161`	`command_list.append(str(slurm_script_path))`