ikawrakow
diff --git a/‎common/common.cpp‎
Lines changed: 6 additions & 6 deletions b/‎common/common.cpp‎
Lines changed: 6 additions & 6 deletions
diff --git a/‎examples/llama-bench/llama-bench.cpp‎
Lines changed: 4 additions & 8 deletions b/‎examples/llama-bench/llama-bench.cpp‎
Lines changed: 4 additions & 8 deletions
diff --git a/‎ggml/include/ggml.h‎
Lines changed: 7 additions & 0 deletions b/‎ggml/include/ggml.h‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎ggml/src/ggml-backend.cpp‎
Lines changed: 17 additions & 2 deletions b/‎ggml/src/ggml-backend.cpp‎
Lines changed: 17 additions & 2 deletions
@@ -1276,12 +1276,11 @@ bool gpt_params_find_arg(int argc, char ** argv, const std::string & arg, gpt_pa
         else if (arg_next == "layer") {
             params.split_mode = LLAMA_SPLIT_MODE_LAYER;
         }
-        else if (arg_next == "row") {
-            fprintf(stderr, "\n\n=====================================================================================\n");
-            fprintf(stderr, " Split mode row is no longer supported\n");
-            fprintf(stderr, "=====================================================================================\n\n\n");
-            GGML_ABORT("fatal error");
-            params.split_mode = LLAMA_SPLIT_MODE_ROW;
+        else if (arg_next == "attn") {
+            params.split_mode = LLAMA_SPLIT_MODE_ATTN;
+        }
+        else if (arg_next == "graph") {
+            params.split_mode = LLAMA_SPLIT_MODE_GRAPH;
         }
         else {
             invalid_param = true;
@@ -2249,6 +2248,7 @@ void gpt_params_print_usage(int /*argc*/, char ** argv, const gpt_params & param
         options.push_back({ "*",           "-sm,   --split-mode SPLIT_MODE",
                                                                         "how to split the model across multiple GPUs, one of:\n"
                                                                         "  - none: use one GPU only\n"
+                                                                        "  - graph: split model tensors and computation graph across GPUs\n"
                                                                         "  - layer (default): split layers and KV across GPUs\n" });
         options.push_back({ "*",           "-ts,   --tensor-split SPLIT",
                                                                         "fraction of the model to offload to each GPU, comma-separated list of proportions, e.g. 3,1" });
 
@@ -217,7 +217,7 @@ static const char * split_mode_str(llama_split_mode mode) {
     switch (mode) {
         case LLAMA_SPLIT_MODE_NONE:  return "none";
         case LLAMA_SPLIT_MODE_LAYER: return "layer";
-        case LLAMA_SPLIT_MODE_ROW:   return "row";
+        case LLAMA_SPLIT_MODE_GRAPH: return "graph";
         default: GGML_ABORT("invalid split mode");
     }
 }
@@ -334,7 +334,7 @@ static void print_usage(int /* argc */, char ** argv) {
     printf("  -ngl, --n-gpu-layers <n>            (default: %s)\n", join(cmd_params_defaults.n_gpu_layers, ",").c_str());
     printf("  --n-cpu-moe <n>                     (default: none)\n");
     printf("  -rpc, --rpc <rpc_servers>           (default: %s)\n", join(cmd_params_defaults.rpc_servers, ",").c_str());
-    printf("  -sm, --split-mode <none|layer>      (default: %s)\n", join(transform_to_str(cmd_params_defaults.split_mode, split_mode_str), ",").c_str());
+    printf("  -sm, --split-mode <none|row|layer>  (default: %s)\n", join(transform_to_str(cmd_params_defaults.split_mode, split_mode_str), ",").c_str());
     printf("  -mg, --main-gpu <i>                 (default: %s)\n", join(cmd_params_defaults.main_gpu, ",").c_str());
     printf("  -nkvo, --no-kv-offload <0|1>        (default: %s)\n", join(cmd_params_defaults.no_kv_offload, ",").c_str());
     printf("  -fa, --flash-attn <0|1>             (default: %s)\n", join(cmd_params_defaults.flash_attn, ",").c_str());
@@ -630,12 +630,8 @@ static cmd_params parse_cmd_params(int argc, char ** argv) {
                     mode = LLAMA_SPLIT_MODE_NONE;
                 } else if (m == "layer") {
                     mode = LLAMA_SPLIT_MODE_LAYER;
-                } else if (m == "row") {
-                    fprintf(stderr, "\n\n=======================================================================\n");
-                    fprintf(stderr, "Split mode 'row' is no longer supported\n");
-                    fprintf(stderr, "=======================================================================\n\n\n");
-                    invalid_param = true;
-                    break;
+                } else if (m == "graph") {
+                    mode = LLAMA_SPLIT_MODE_GRAPH;
                 } else {
                     invalid_param = true;
                     break;
 
@@ -3021,6 +3021,13 @@ extern "C" {
 
     GGML_API ggml_type_traits_t ggml_internal_get_type_traits(enum ggml_type type);
 
+    typedef struct {
+        int                   n_device;
+        int                   split_dim;
+        struct ggml_tensor *  tensor;
+        struct ggml_tensor ** splits;
+    } ggml_split_tensor_t;
+
 #ifdef  __cplusplus
 }
 #endif
@@ -43,7 +43,7 @@ GGML_CALL size_t ggml_backend_buft_get_alloc_size(ggml_backend_buffer_type_t buf
     // get_alloc_size is optional, defaults to ggml_nbytes
     if (buft->iface.get_alloc_size) {
         size_t size = buft->iface.get_alloc_size(buft, tensor);
-        assert(size >= ggml_nbytes(tensor));
+        //assert(size >= ggml_nbytes(tensor));
         return size;
     }
     return ggml_nbytes(tensor);
@@ -1216,8 +1216,10 @@ static int ggml_backend_sched_backend_from_buffer(ggml_backend_sched_t sched, co
         return -1;
     }
 
+    //printf("%s: have %d backends, buffer is %s\n", __func__, sched->n_backends, ggml_backend_buffer_name(buffer));
     // find highest prio backend that supports the buffer type and the op
     for (int i = 0; i < sched->n_backends; i++) {
+        //printf("  Checking bacckend %d (%s)\n", i, ggml_backend_name(sched->backends[i]));
         if (ggml_backend_supports_buft(sched->backends[i], buffer->buft) &&
             ggml_backend_supports_op(sched->backends[i], op)) {
             return i;
@@ -1393,6 +1395,7 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg
         // do not overwrite user assignments
         if (*leaf_backend_id == -1) {
             *leaf_backend_id = ggml_backend_sched_backend_id_from_cur(sched, leaf);
+            //printf("Pass 1: assigned backend %d to leaf %d, %s\n", *leaf_backend_id, i, graph->leafs[i]->name);
         }
     }
 
@@ -1402,6 +1405,7 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg
         // do not overwrite user assignments
         if (*node_backend_id == -1) {
             *node_backend_id = ggml_backend_sched_backend_id_from_cur(sched, node);
+            //printf("Pass 1: assigned backend %d to node %d, %s(%s)\n", *node_backend_id, i, ggml_op_name(node->op), node->name);
 
 #if 0
             // src
@@ -1445,6 +1449,7 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg
                     cur_backend_id = *node_backend_id;
                 }
             } else if (cur_backend_id != -1) {
+                //printf("(u1) invoking ggml_backend_sched_set_if_supported for node %d, %s with cur_backend_id = %d, node_backend_id = %d\n", i, node->name, cur_backend_id, *node_backend_id);
                 ggml_backend_sched_set_if_supported(sched, node, cur_backend_id, node_backend_id);
             }
         }
@@ -1466,6 +1471,7 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg
                     cur_backend_id = *node_backend_id;
                 }
             } else if (cur_backend_id != -1) {
+                //printf("(d1) invoking ggml_backend_sched_set_if_supported for node %d, %s with cur_backend_id = %d, node_backend_id = %d\n", i, node->name, cur_backend_id, *node_backend_id);
                 ggml_backend_sched_set_if_supported(sched, node, cur_backend_id, node_backend_id);
             }
         }
@@ -1482,6 +1488,7 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg
             if (*node_backend_id != -1) {
                 cur_backend_id = *node_backend_id;
             } else if (cur_backend_id != -1) {
+                //printf("(u2) invoking ggml_backend_sched_set_if_supported for node %d, %s with cur_backend_id = %d, node_backend_id = %d\n", i, node->name, cur_backend_id, *node_backend_id);
                 ggml_backend_sched_set_if_supported(sched, node, cur_backend_id, node_backend_id);
             }
         }
@@ -1498,6 +1505,7 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg
             if (*node_backend_id != -1) {
                 cur_backend_id = *node_backend_id;
             } else if (cur_backend_id != -1) {
+                //printf("(d2) invoking ggml_backend_sched_set_if_supported for node %d, %s with cur_backend_id = %d, node_backend_id = %d\n", i, node->name, cur_backend_id, *node_backend_id);
                 ggml_backend_sched_set_if_supported(sched, node, cur_backend_id, node_backend_id);
             }
         }
@@ -1535,6 +1543,7 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg
                     if (n_supported > n_supported_best) {
                         n_supported_best = n_supported;
                         *node_backend_id = b;
+                        //printf("Pass 3: assigned backend %d to unassigned node %d, %s\n", b, i, node->name);
                         SET_CAUSE(node, "3.best");
                     }
                 }
@@ -1555,6 +1564,7 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg
                         }
                     }
                     if (supported) {
+                        //printf("Pass 3: assigned backend %d to node %d, %s previously assigned to backend %d\n", b, i, node->name, *node_backend_id);
                         *node_backend_id = b;
                         SET_CAUSE(node, "3.upg");
                         break;
@@ -1583,9 +1593,11 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg
                     // views are always on the same backend as the source
                     *src_backend_id = tensor_backend_id(src->view_src);
                     SET_CAUSE(src, "4.vsrc");
+                    //printf("Pass 4: assigned backend %d to src %d, %s in node %d, %s frpm view_src\n", *src_backend_id, j, src->name, i, node->name);
                 } else {
                     *src_backend_id = *cur_backend_id;
                     SET_CAUSE(src, "4.cur");
+                    //printf("Pass 4: assigned backend %d to src %d, %s in node %d, %s frpm current\n", *src_backend_id, j, src->name, i, node->name);
                 }
             }
         }
@@ -1620,7 +1632,10 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg
 
             // check if we should start a new split based on the sources of the current node
             bool need_new_split = false;
-            if (node_backend_id == cur_backend_id && split->n_inputs > 0) {
+            if (node->op == GGML_OP_ADD && node->op_params[0] == 0xff) {
+                need_new_split = true;
+            }
+            else if (node_backend_id == cur_backend_id && split->n_inputs > 0) {
                 for (int j = 0; j < GGML_MAX_SRC; j++) {
                     struct ggml_tensor * src = node->src[j];
                     if (src == NULL) {
Original file line number	Diff line number	Diff line change
`@@ -43,7 +43,7 @@ GGML_CALL size_t ggml_backend_buft_get_alloc_size(ggml_backend_buffer_type_t buf`
`43`	`43`	`// get_alloc_size is optional, defaults to ggml_nbytes`
`44`	`44`	`if (buft->iface.get_alloc_size) {`
`45`	`45`	`size_t size = buft->iface.get_alloc_size(buft, tensor);`
`46`		`- assert(size >= ggml_nbytes(tensor));`
	`46`	`+ //assert(size >= ggml_nbytes(tensor));`
`47`	`47`	`return size;`
`48`	`48`	`}`
`49`	`49`	`return ggml_nbytes(tensor);`
`@@ -1216,8 +1216,10 @@ static int ggml_backend_sched_backend_from_buffer(ggml_backend_sched_t sched, co`
`1216`	`1216`	`return -1;`
`1217`	`1217`	`}`
`1218`	`1218`
	`1219`	`+ //printf("%s: have %d backends, buffer is %s\n", __func__, sched->n_backends, ggml_backend_buffer_name(buffer));`
`1219`	`1220`	`// find highest prio backend that supports the buffer type and the op`
`1220`	`1221`	`for (int i = 0; i < sched->n_backends; i++) {`
	`1222`	`+ //printf(" Checking bacckend %d (%s)\n", i, ggml_backend_name(sched->backends[i]));`
`1221`	`1223`	`if (ggml_backend_supports_buft(sched->backends[i], buffer->buft) &&`
`1222`	`1224`	`ggml_backend_supports_op(sched->backends[i], op)) {`
`1223`	`1225`	`return i;`
`@@ -1393,6 +1395,7 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg`
`1393`	`1395`	`// do not overwrite user assignments`
`1394`	`1396`	`if (*leaf_backend_id == -1) {`
`1395`	`1397`	`*leaf_backend_id = ggml_backend_sched_backend_id_from_cur(sched, leaf);`
	`1398`	`+ //printf("Pass 1: assigned backend %d to leaf %d, %s\n", *leaf_backend_id, i, graph->leafs[i]->name);`
`1396`	`1399`	`}`
`1397`	`1400`	`}`
`1398`	`1401`
`@@ -1402,6 +1405,7 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg`
`1402`	`1405`	`// do not overwrite user assignments`
`1403`	`1406`	`if (*node_backend_id == -1) {`
`1404`	`1407`	`*node_backend_id = ggml_backend_sched_backend_id_from_cur(sched, node);`
	`1408`	`+ //printf("Pass 1: assigned backend %d to node %d, %s(%s)\n", *node_backend_id, i, ggml_op_name(node->op), node->name);`
`1405`	`1409`
`1406`	`1410`	`#if 0`
`1407`	`1411`	`// src`
`@@ -1445,6 +1449,7 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg`
`1445`	`1449`	`cur_backend_id = *node_backend_id;`
`1446`	`1450`	`}`
`1447`	`1451`	`} else if (cur_backend_id != -1) {`
	`1452`	`+ //printf("(u1) invoking ggml_backend_sched_set_if_supported for node %d, %s with cur_backend_id = %d, node_backend_id = %d\n", i, node->name, cur_backend_id, *node_backend_id);`
`1448`	`1453`	`ggml_backend_sched_set_if_supported(sched, node, cur_backend_id, node_backend_id);`
`1449`	`1454`	`}`
`1450`	`1455`	`}`
`@@ -1466,6 +1471,7 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg`
`1466`	`1471`	`cur_backend_id = *node_backend_id;`
`1467`	`1472`	`}`
`1468`	`1473`	`} else if (cur_backend_id != -1) {`
	`1474`	`+ //printf("(d1) invoking ggml_backend_sched_set_if_supported for node %d, %s with cur_backend_id = %d, node_backend_id = %d\n", i, node->name, cur_backend_id, *node_backend_id);`
`1469`	`1475`	`ggml_backend_sched_set_if_supported(sched, node, cur_backend_id, node_backend_id);`
`1470`	`1476`	`}`
`1471`	`1477`	`}`
`@@ -1482,6 +1488,7 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg`
`1482`	`1488`	`if (*node_backend_id != -1) {`
`1483`	`1489`	`cur_backend_id = *node_backend_id;`
`1484`	`1490`	`} else if (cur_backend_id != -1) {`
	`1491`	`+ //printf("(u2) invoking ggml_backend_sched_set_if_supported for node %d, %s with cur_backend_id = %d, node_backend_id = %d\n", i, node->name, cur_backend_id, *node_backend_id);`
`1485`	`1492`	`ggml_backend_sched_set_if_supported(sched, node, cur_backend_id, node_backend_id);`
`1486`	`1493`	`}`
`1487`	`1494`	`}`
`@@ -1498,6 +1505,7 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg`
`1498`	`1505`	`if (*node_backend_id != -1) {`
`1499`	`1506`	`cur_backend_id = *node_backend_id;`
`1500`	`1507`	`} else if (cur_backend_id != -1) {`
	`1508`	`+ //printf("(d2) invoking ggml_backend_sched_set_if_supported for node %d, %s with cur_backend_id = %d, node_backend_id = %d\n", i, node->name, cur_backend_id, *node_backend_id);`
`1501`	`1509`	`ggml_backend_sched_set_if_supported(sched, node, cur_backend_id, node_backend_id);`
`1502`	`1510`	`}`
`1503`	`1511`	`}`
`@@ -1535,6 +1543,7 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg`
`1535`	`1543`	`if (n_supported > n_supported_best) {`
`1536`	`1544`	`n_supported_best = n_supported;`
`1537`	`1545`	`*node_backend_id = b;`
	`1546`	`+ //printf("Pass 3: assigned backend %d to unassigned node %d, %s\n", b, i, node->name);`
`1538`	`1547`	`SET_CAUSE(node, "3.best");`
`1539`	`1548`	`}`
`1540`	`1549`	`}`
`@@ -1555,6 +1564,7 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg`
`1555`	`1564`	`}`
`1556`	`1565`	`}`
`1557`	`1566`	`if (supported) {`
	`1567`	`+ //printf("Pass 3: assigned backend %d to node %d, %s previously assigned to backend %d\n", b, i, node->name, *node_backend_id);`
`1558`	`1568`	`*node_backend_id = b;`
`1559`	`1569`	`SET_CAUSE(node, "3.upg");`
`1560`	`1570`	`break;`
`@@ -1583,9 +1593,11 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg`
`1583`	`1593`	`// views are always on the same backend as the source`
`1584`	`1594`	`*src_backend_id = tensor_backend_id(src->view_src);`
`1585`	`1595`	`SET_CAUSE(src, "4.vsrc");`
	`1596`	`+ //printf("Pass 4: assigned backend %d to src %d, %s in node %d, %s frpm view_src\n", *src_backend_id, j, src->name, i, node->name);`
`1586`	`1597`	`} else {`
`1587`	`1598`	`src_backend_id = cur_backend_id;`
`1588`	`1599`	`SET_CAUSE(src, "4.cur");`
	`1600`	`+ //printf("Pass 4: assigned backend %d to src %d, %s in node %d, %s frpm current\n", *src_backend_id, j, src->name, i, node->name);`
`1589`	`1601`	`}`
`1590`	`1602`	`}`
`1591`	`1603`	`}`
`@@ -1620,7 +1632,10 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg`
`1620`	`1632`
`1621`	`1633`	`// check if we should start a new split based on the sources of the current node`
`1622`	`1634`	`bool need_new_split = false;`
`1623`		`- if (node_backend_id == cur_backend_id && split->n_inputs > 0) {`
	`1635`	`+ if (node->op == GGML_OP_ADD && node->op_params[0] == 0xff) {`
	`1636`	`+ need_new_split = true;`
	`1637`	`+ }`
	`1638`	`+ else if (node_backend_id == cur_backend_id && split->n_inputs > 0) {`
`1624`	`1639`	`for (int j = 0; j < GGML_MAX_SRC; j++) {`
`1625`	`1640`	`struct ggml_tensor * src = node->src[j];`
`1626`	`1641`	`if (src == NULL) {`