add seed coder - 8b

BBC-Esq · web-flow · commit 063d2d45ae62 · 2025-05-14T11:44:05.000-04:00
diff --git a/src/chart_models_chat.py b/src/chart_models_chat.py
@@ -5,20 +5,21 @@
 
 from constants import CHAT_MODELS
 
+# "color": "#CC5500", # orange
+# "color": "#8B0000", # red
+# "color": "#4682B4", # light blue
+# "color": "#2E8B57", # green
+# "color": "#6A0DAD", # purple
+
 def create_chat_models_comparison_plot():
     model_categories = {
         "coding": {
             "models": [
                 # "Qwen Coder - 1.5b",
                 # "Qwen Coder - 3b",
-                # "Qwen Coder - 7b",
-                # "Qwen Coder - 14b",
-                # "Qwen Coder - 32b",
+                "Seed Coder - 8b"
             ],
-            # "color": "#CC5500", # orange
-            # "color": "#8B0000", # red
-            # "color": "#4682B4", # light blue
-            "color": "#DAA520", # gold
+            "color": "#DAA520",
             "label": "Coding Focused"
         },
         "thinking": {
@@ -32,23 +33,21 @@ def create_chat_models_comparison_plot():
                 "Qwen 3 - 32b",
                 "GLM4-Z1 - 32b",
             ],
-            "color": "#CC5500", # orange
-            # "color": "#2E8B57", # green
+            "color": "#CC5500",
+
             "label": "Thinking"
         },
         "coding_and_thinking": {
             "models": [
                 # "Olympic Coder - 7b",
                 # "Olympic Coder - 32b"
             ],
-            "color": "#8B0000", # red
-            # "color": "#6A0DAD", # purple
-            # "color": "#4682B4", # light blue
+            "color": "#8B0000",
+
             "label": "Coding Focused and Thinking"
         }
     }
 
-    # Create DataFrame with all models from CHAT_MODELS
     df = pd.DataFrame([
         {"model": model, "cps": data["cps"], "vram": data["vram"] / 1024}
         for model, data in CHAT_MODELS.items()
@@ -61,7 +60,7 @@ def create_chat_models_comparison_plot():
     fig.patch.set_facecolor('#2e2e2e')
     ax1.set_facecolor('#2e2e2e')
 
-    ax1.set_title("BitsAndBytes (4-bit) - RTX 4090 - 4096 context limit", fontsize=14, color='white', pad=5)
+    ax1.set_title("BitsAndBytes (4-bit) - RTX 4090", fontsize=14, color='white', pad=5)
 
     ax2 = ax1.twinx()
 
diff --git a/src/constants.py b/src/constants.py
@@ -1,5 +1,4 @@
 # ── constants.py ────────────────────────────────────────────────────────────────
-# … existing imports / data …
 
 GLM4Z1_CHAT_TEMPLATE = """[gMASK]<sop>
 {%- if tools -%}
@@ -377,6 +376,17 @@
         'gated': False,
         'max_new_tokens': 4096,
     },
+    'Seed Coder - 8b': {
+        'model': 'Seed Coder - 8b',
+        'repo_id': 'ByteDance-Seed/Seed-Coder-8B-Instruct',
+        'cache_dir': 'ByteDance-Seed--Seed-Coder-8B-Instruct',
+        'cps': 183.82,
+        'vram': 8441.93,
+        'function': 'SeedCoder',
+        'precision': 'bfloat16',
+        'gated': False,
+        'max_new_tokens': 4096,
+    },
     'Granite - 8b': {
         'model': 'Granite - 8b',
         'repo_id': 'ibm-granite/granite-3.3-8b-instruct',
diff --git a/src/module_chat.py b/src/module_chat.py
@@ -400,6 +400,28 @@ def generate_response(self, inputs, remove_token_type_ids: bool = False):
         yield text[idx:].strip()
 
 
+class SeedCoder(BaseModel):
+    def __init__(self, generation_settings, model_name=None):
+        model_info = CHAT_MODELS[model_name]
+        super().__init__(model_info, bnb_bfloat16_settings, generation_settings)
+
+    def create_prompt(self, augmented_query):
+        return f"""<[begin_of_sentence]>system
+{system_message}
+
+<[end_of_sentence]><[begin_of_sentence]>user
+{augmented_query}<[begin_of_sentence]>assistant
+"""
+
+    @torch.inference_mode()
+    def generate_response(self, inputs):
+        """
+        SeedCoder does not accept `token_type_ids`, so remove them
+        before calling the parent generator.
+        """
+        inputs.pop("token_type_ids", None)
+        yield from super().generate_response(inputs)
+
 
 def generate_response(model_instance, augmented_query):
     prompt = model_instance.create_prompt(augmented_query)