unified config with canonical base attributes; added config adapter/validator; updated dev env to uv; created and single node smoke test (Unsloth) locally

codeamt · codeamt · commit b0eac3263e6c · 2025-10-23T18:03:42.000-04:00
diff --git a/.python-version b/.python-version
@@ -0,0 +1 @@
+3.13
diff --git a/common/configs/adapter.py b/common/configs/adapter.py
@@ -0,0 +1,124 @@
+import os
+from typing import Any, Dict, Tuple, List
+
+try:
+    import yaml  # type: ignore
+except Exception as e:
+    yaml = None
+
+
+def _ensure_dict(d: Dict[str, Any], key: str) -> Dict[str, Any]:
+    if key not in d or d.get(key) is None:
+        d[key] = {}
+    return d[key]
+
+
+def normalize_config(cfg: Dict[str, Any]) -> Dict[str, Any]:
+    c = dict(cfg)
+
+    training = _ensure_dict(c, "training")
+    optimizer_obj = training.get("optimizer")
+    if isinstance(optimizer_obj, str):
+        name = optimizer_obj
+        lr = training.pop("lr", None)
+        training["optimizer"] = {"name": name}
+        if lr is not None:
+            training["optimizer"]["lr"] = lr
+    elif isinstance(optimizer_obj, dict):
+        if "lr" not in optimizer_obj and "lr" in training:
+            optimizer_obj["lr"] = training.pop("lr")
+    else:
+        lr = training.pop("lr", None)
+        if lr is not None:
+            training["optimizer"] = {"name": "adamw_torch", "lr": lr}
+
+    if "batch_size_per_gpu" not in training and "batch_size" in training:
+        training["batch_size_per_gpu"] = training.pop("batch_size")
+
+    data = _ensure_dict(c, "data")
+    if "num_workers" not in data and "num_proc" in data:
+        data["num_workers"] = data.pop("num_proc")
+
+    validation = data.get("validation")
+    if isinstance(validation, dict):
+        if "batch_size_per_gpu" not in validation and "batch_size" in validation:
+            validation["batch_size_per_gpu"] = validation.pop("batch_size")
+
+    model = _ensure_dict(c, "model")
+    if "tokenizer_name" not in data and "name" in model:
+        data["tokenizer_name"] = model["name"]
+
+    checkpoint = _ensure_dict(c, "checkpoint")
+    if "output_dir" not in checkpoint and "dir" in checkpoint:
+        checkpoint.setdefault("output_dir", checkpoint.get("dir"))
+
+    return c
+
+
+def validate_config(cfg: Dict[str, Any]) -> Tuple[List[str], List[str]]:
+    errors: List[str] = []
+    warnings: List[str] = []
+
+    def need(path: str):
+        nonlocal errors
+        node = cfg
+        for k in path.split("."):
+            if not isinstance(node, dict) or k not in node:
+                errors.append(f"Missing required key: {path}")
+                return None
+            node = node[k]
+        return node
+
+    need("model.name")
+    need("data.name")
+    need("data.prompt_template")
+
+    if need("training.batch_size_per_gpu") is not None:
+        v = cfg["training"]["batch_size_per_gpu"]
+        if not isinstance(v, int) or v <= 0:
+            errors.append("training.batch_size_per_gpu must be a positive int")
+
+    need("training.grad_accum_steps")
+    need("training.max_steps")
+    need("training.optimizer.name")
+    need("training.optimizer.lr")
+
+    need("checkpoint.save_interval")
+    if need("checkpoint.output_dir") is None and need("checkpoint.dir") is None:
+        warnings.append("checkpoint.output_dir is missing; will rely on SM_CHECKPOINT_DIR or checkpoint.dir if provided")
+
+    model = cfg.get("model", {})
+    if model.get("load_in_4bit") and model.get("dtype"):
+        warnings.append("model.load_in_4bit is set along with model.dtype; verify compatibility for the selected trainer")
+
+    data = cfg.get("data", {})
+    if data.get("format") == "parquet" and data.get("streaming") is True:
+        warnings.append("data.format=parquet with streaming=true may not be supported; verify dataset loader path")
+
+    return errors, warnings
+
+
+def resolve_checkpoint_dir(cfg: Dict[str, Any], env: Dict[str, str] | None = None) -> str:
+    e = env or os.environ
+    sm_dir = e.get("SM_CHECKPOINT_DIR")
+    if sm_dir:
+        return sm_dir
+    checkpoint = cfg.get("checkpoint", {})
+    if checkpoint.get("dir"):
+        return str(checkpoint["dir"])
+    if checkpoint.get("output_dir"):
+        return str(checkpoint["output_dir"])
+    return "./outputs"
+
+
+def load_config(path: str, env: Dict[str, str] | None = None) -> Tuple[Dict[str, Any], List[str], List[str]]:
+    if yaml is None:
+        raise RuntimeError("PyYAML is required to load config files")
+    with open(path, "r") as f:
+        raw = yaml.safe_load(f) or {}
+    norm = normalize_config(raw)
+    errors, warnings = validate_config(norm)
+    if errors:
+        raise ValueError("Config validation failed: " + "; ".join(errors))
+    _ = resolve_checkpoint_dir(norm, env)
+    return norm, errors, warnings
diff --git a/common/configs/base_config.yaml b/common/configs/base_config.yaml
@@ -2,12 +2,12 @@ defaults:
   - fsdp_defaults  # For FSDP jobs only
 
 training:
-  batch_size: 4            # Unsloth: per-device batch size; FSDP: may use batch_size_per_gpu
   batch_size_per_gpu: 4    # FSDP trainer expects this
   grad_accum_steps: 1
-  lr: 2e-5
   max_steps: 1000
-  optimizer: adamw_torch
+  optimizer:
+    name: adamw_torch
+    lr: 2e-5
 
 checkpoint:
   save_interval: 100
diff --git a/common/utils/logging_utils.py b/common/utils/logging_utils.py
@@ -1,6 +1,9 @@
 import os
 import wandb
-import smdebug.pytorch as smd
+try:
+    import smdebug.pytorch as smd  # type: ignore
+except Exception:
+    smd = None
 import logging
 from typing import Any, Dict
 try:
@@ -18,9 +21,12 @@ def __init__(self, config):
             wandb.init(project=config["wandb_project"])
             self.loggers.append(("wandb", wandb.log))
 
-        if "SM_DEBUG" in os.environ:  # SageMaker Debugger
-            self.hook = smd.Hook.create_from_json_file()
-            self.loggers.append(("smdebug", self.hook.log_metric))
+        if smd is not None and "SM_DEBUG" in os.environ:  # SageMaker Debugger
+            try:
+                self.hook = smd.Hook.create_from_json_file()
+                self.loggers.append(("smdebug", self.hook.log_metric))
+            except Exception as e:
+                logging.error(f"Failed to initialize smdebug hook: {e}")
 
     def log_metrics(self, metrics, step):
         for name, logger in self.loggers:
diff --git a/main.py b/main.py
@@ -0,0 +1,6 @@
+def main():
+    print("Hello from fsdp-multi-gpu-training!")
+
+
+if __name__ == "__main__":
+    main()
diff --git a/pyproject.toml b/pyproject.toml
@@ -0,0 +1,7 @@
+[project]
+name = "fsdp-multi-gpu-training"
+version = "0.1.0"
+description = "Add your description here"
+readme = "README.md"
+requires-python = ">=3.13"
+dependencies = []
diff --git a/requirements.txt b/requirements.txt
@@ -5,9 +5,11 @@ datasets>=2.19.0
 accelerate>=0.31.0
 omegaconf>=2.3.0
 safetensors>=0.4.3
+jupyter>=1.0.0
 
 # Quantization / 4-bit (for Unsloth or fallback paths)
-bitsandbytes>=0.43.1
+# Install only on Linux (x86_64/aarch64). No macOS arm64 wheels are available.
+bitsandbytes>=0.48.1; platform_system == "Linux" and (platform_machine == "x86_64" or platform_machine == "aarch64")
 
 # Optional but commonly required for LLM tokenizers
 sentencepiece>=0.1.99
@@ -17,12 +19,15 @@ wandb>=0.17.0
 
 # Storage / data access
 s3fs>=2024.6.1
+boto3>=1.34.0
 
 # Unsloth (when using the Unsloth strategy)
-unsloth>=2024.5.0
+# Install only on Linux and Python < 3.13 to avoid xformers build issues on macOS/Apple Silicon and Py3.13
+unsloth>=2024.5.0; platform_system == "Linux" and python_version < "3.13"
 peft>=0.11.1
 
 # Utilities
 pyyaml>=6.0.1
 tqdm>=4.66.0
 python-dotenv>=1.0.1
+psutil>=5.9.0
diff --git a/scripts/configs/fsdp/llama-70b.yaml b/scripts/configs/fsdp/llama-70b.yaml
@@ -45,6 +45,8 @@ checkpoint:
   format: "sharded"                     # FSDP-required format
   s3_uri: "s3://${env:BUCKET_NAME}/fsdp-checkpoints/"
   save_optimizer: false                 # Saves VRAM
+  save_interval: 500
+  output_dir: ./outputs
 
 # Logging
 logging:
diff --git a/scripts/configs/unsloth/llama-7b.yaml b/scripts/configs/unsloth/llama-7b.yaml
@@ -18,26 +18,28 @@ data:
     ### Instruction: {instruction}
     ### Input: {input}
     ### Response: {output}{eos_token}
-  num_proc: 4                           # Parallel loading
+  num_workers: 4                        # Parallel loading
   validation:
     name: "s3://${env:BUCKET_NAME}/llm-data/validation"  # or HF path
     split: "validation"
     interval: 200  # Steps between validations
-    batch_size: 4  # Unsloth
+    batch_size_per_gpu: 4  # Unsloth
 
 # Training Parameters
 training:
-  batch_size: 4                         # Adjust based on VRAM
+  batch_size_per_gpu: 4                 # Adjust based on VRAM
   grad_accum_steps: 2
   max_steps: 1000
-  lr: 2e-5
-  optimizer: "adamw_8bit"
+  optimizer:
+    name: "adamw_8bit"
+    lr: 2e-5
 
 # Checkpointing
 checkpoint:
   dir: "/opt/ml/checkpoints"            # SageMaker compatible
   save_interval: 100
   s3_uri: "s3://${env:BUCKET_NAME}/unsloth-checkpoints/"
+  output_dir: ./outputs
 
 # Logging
 logging:
diff --git a/scripts/core/data_loader.py b/scripts/core/data_loader.py
@@ -20,6 +20,7 @@ class DataLoaderConfig:
     streaming: bool = False
     cache_dir: Optional[str] = None
     hf_token: Optional[str] = None
+    config_name: Optional[str] = None  # HF dataset config (e.g., "wikitext-2-raw-v1")
 
 
 class DataLoader:
@@ -28,8 +29,14 @@ class DataLoader:
     Prefer this over ad-hoc loaders for consistent preprocessing and error context.
     """
     def __init__(self, config: Union[DictConfig, DataLoaderConfig]):
-        self.config = config if isinstance(config, DataLoaderConfig) \
-            else DataLoaderConfig(**config.data)
+        if isinstance(config, DataLoaderConfig):
+            self.config = config
+        elif isinstance(config, DictConfig):
+            self.config = DataLoaderConfig(**config.data)
+        elif isinstance(config, dict):
+            self.config = DataLoaderConfig(**config)
+        else:
+            raise TypeError(f"Unsupported config type for DataLoader: {type(config)}")
         try:
             self.tokenizer = AutoTokenizer.from_pretrained(
                 self.config.tokenizer_name,
@@ -45,13 +52,15 @@ def __init__(self, config: Union[DictConfig, DataLoaderConfig]):
     def _load_from_hf(self) -> Dataset:
         """Load dataset directly from Hugging Face Hub."""
         try:
-            return load_dataset(
-                self.config.name,
-                split=self.config.split,
-                streaming=self.config.streaming,
-                token=self.config.hf_token or os.getenv("HF_TOKEN"),
-                cache_dir=self.config.cache_dir
-            )
+            kwargs = {
+                "split": self.config.split,
+                "streaming": self.config.streaming,
+                "token": self.config.hf_token or os.getenv("HF_TOKEN"),
+                "cache_dir": self.config.cache_dir,
+            }
+            if self.config.config_name:
+                kwargs["name"] = self.config.config_name
+            return load_dataset(self.config.name, **kwargs)
         except Exception as e:
             msg = (
                 f"Failed to load HF dataset '{self.config.name}' split='{self.config.split}' "
diff --git a/scripts/core/fsdp/trainer.py b/scripts/core/fsdp/trainer.py
@@ -4,12 +4,13 @@
 from torch.utils.data.distributed import DistributedSampler
 from torch.distributed.fsdp import FullyShardedDataParallel as FSDP
 from omegaconf import DictConfig, OmegaConf
-from ...data_loader import get_dataloader
+from ..data_loader import get_dataloader
 from .sharding import ShardingConfig
 from .optim import FSDPOptimizer
 from common.utils.checkpoint_utils import save_checkpoint
 from common.utils.logging_utils import UnifiedLogger
 from common.utils.memory_utils import MemoryMonitor
+from common.configs.adapter import resolve_checkpoint_dir
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from torch.utils.data import DataLoader
 import sys
@@ -182,7 +183,7 @@ def _should_checkpoint(self):
 
     def _save_checkpoint(self):
         """Unified checkpoint saving"""
-        out_dir = getattr(self.config.checkpoint, "output_dir", "./outputs")
+        out_dir = resolve_checkpoint_dir(OmegaConf.to_container(self.config, resolve=True))
         os.makedirs(out_dir, exist_ok=True)
         save_path = os.path.join(out_dir, f"checkpoint_{self.current_step}")
         try:
diff --git a/scripts/core/strategy_selector.py b/scripts/core/strategy_selector.py
@@ -4,9 +4,6 @@
 import logging
 from .security import validate_hf_token, is_safe_s3_uri, is_safe_local_path
 
-from .unsloth.trainer import UnslothTrainer
-from .fsdp.trainer import FSDPSupervisor
-
 
 def _preflight(config: DictConfig) -> None:
     """Run non-fatal preflight checks before constructing a trainer.
@@ -70,7 +67,10 @@ def _resolve_strategy(config: DictConfig) -> str:
 def get_trainer(config: DictConfig, resume: str | None = None):
     strategy = _resolve_strategy(config)
     if strategy == "fsdp":
+        # Lazy import to avoid importing FSDP on unsupported platforms during Unsloth runs
+        from .fsdp.trainer import FSDPSupervisor
         return FSDPSupervisor(config, checkpoint_path=resume)
     if strategy == "unsloth":
+        from .unsloth.trainer import UnslothTrainer
         return UnslothTrainer(config, checkpoint_path=resume)
     raise ValueError(f"Unsupported strategy: {strategy}")
diff --git a/scripts/core/unsloth/trainer.py b/scripts/core/unsloth/trainer.py
diff --git a/scripts/smoke/smoke_fsdp.py b/scripts/smoke/smoke_fsdp.py
diff --git a/scripts/smoke/smoke_unsloth.py b/scripts/smoke/smoke_unsloth.py
diff --git a/scripts/train.py b/scripts/train.py
diff --git a/uv.lock b/uv.lock