skylight-org
diff --git a/‎sparse_attention_hub/sparse_attention/research_attention/maskers/fixed/implementations/hashattention_top_k.py‎
Lines changed: 0 additions & 1 deletion b/‎sparse_attention_hub/sparse_attention/research_attention/maskers/fixed/implementations/hashattention_top_k.py‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎sparse_attention_hub/sparse_attention/research_attention/maskers/fixed/implementations/oracle_top_p.py‎
Lines changed: 3 additions & 0 deletions b/‎sparse_attention_hub/sparse_attention/research_attention/maskers/fixed/implementations/oracle_top_p.py‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎tests/unit/sparse_attention/research_attention/maskers/fixed/implementations/test_basic_fixed.py‎
Lines changed: 20 additions & 0 deletions b/‎tests/unit/sparse_attention/research_attention/maskers/fixed/implementations/test_basic_fixed.py‎
Lines changed: 20 additions & 0 deletions
diff --git a/‎tests/unit/sparse_attention/research_attention/maskers/fixed/implementations/test_hashattention_top_k.py‎
Lines changed: 22 additions & 0 deletions b/‎tests/unit/sparse_attention/research_attention/maskers/fixed/implementations/test_hashattention_top_k.py‎
Lines changed: 22 additions & 0 deletions
diff --git a/‎tests/unit/sparse_attention/research_attention/maskers/fixed/implementations/test_oracle_top_k.py‎
Lines changed: 16 additions & 0 deletions b/‎tests/unit/sparse_attention/research_attention/maskers/fixed/implementations/test_oracle_top_k.py‎
Lines changed: 16 additions & 0 deletions
@@ -88,7 +88,6 @@ def add_mask(
             keys,
             queries,
             attention_mask,
-            previous_mask.get_dense_mask(),
             sparse_meta_data,
             previous_mask,
             layer_idx,
 
@@ -117,6 +117,9 @@ def _compute_top_p_thresholds(
         threshold_positions = torch.searchsorted(
             normalized_cumsum, top_p_tensor, side="right"
         )
+        # if top_p is 1.0, then threshold_positions will be equal to sorted_scores.shape[-1]
+        # which is not a valid index, so we clamp it to the last valid index
+        threshold_positions = torch.clamp(threshold_positions, max=sorted_scores.shape[-1] - 1)
         thresholds = torch.gather(sorted_scores, dim=-1, index=threshold_positions)
         return thresholds
 
 
@@ -95,6 +95,8 @@ def test_local_masker_add_mask_full_previous(self):
             queries=queries,
             values=values,
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data=None,
             previous_mask=full_previous_mask,
         )
@@ -129,6 +131,8 @@ def test_local_masker_add_mask_small_sequence(self):
             queries=queries,
             values=values,
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data=None,
             previous_mask=empty_previous_mask,
         )
@@ -163,6 +167,8 @@ def test_local_masker_add_mask_integer_window(self):
             queries=queries,
             values=values,
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data=None,
             previous_mask=empty_previous_mask,
         )
@@ -216,6 +222,8 @@ def test_local_masker_add_mask_float_window(self):
             queries=queries,
             values=values,
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data=None,
             previous_mask=empty_previous_mask,
         )
@@ -268,6 +276,8 @@ def test_local_masker_add_mask_merge_with_previous(self):
             queries=queries,
             values=values,
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data=None,
             previous_mask=previous_mask,
         )
@@ -318,6 +328,8 @@ def test_local_masker_add_mask_edge_case_window_size_zero(self):
             queries=queries,
             values=values,
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data=None,
             previous_mask=empty_previous_mask,
         )
@@ -463,6 +475,8 @@ def test_sink_masker_add_mask(self):
             queries=queries,
             values=values,
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data=None,
             previous_mask=full_previous_mask,
         )
@@ -484,6 +498,8 @@ def test_sink_masker_add_mask(self):
             queries=queries,
             values=values,
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data=None,
             previous_mask=empty_previous_mask,
         )
@@ -507,6 +523,8 @@ def test_sink_masker_add_mask(self):
             queries=queries,
             values=values,
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data=None,
             previous_mask=partial_previous_mask,
         )
@@ -536,6 +554,8 @@ def test_sink_masker_add_mask(self):
             queries=queries,
             values=values,
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data=None,
             previous_mask=partial_previous_mask,
         )
 
@@ -249,6 +249,8 @@ def test_compute_hashattetion_scores(self, basic_config, test_tensors):
                 scores = masker._compute_hashattention_score(
                     keys=test_tensors["keys"],
                     queries=test_tensors["queries"],
+                    attention_mask=None,
+                    previous_dense_mask=torch.zeros(test_tensors["batch_size"], test_tensors["num_heads"], test_tensors["seq_len_queries"], test_tensors["seq_len_keys"]),
                     sparse_meta_data=sparse_meta_data,
                     layer_idx=0,
                 )
@@ -336,6 +338,8 @@ def test_hash_attention_top_k_masker_add_mask_input_validation(
                 queries=test_tensors["queries"],
                 values=test_tensors["values"],
                 attention_mask=None,
+                scaling=1.0,
+                dropout=0.0,
                 sparse_meta_data=None,
                 previous_mask=empty_previous_mask,
             )
@@ -347,6 +351,8 @@ def test_hash_attention_top_k_masker_add_mask_input_validation(
                 queries=test_tensors["queries"],
                 values=test_tensors["values"],
                 attention_mask=None,
+                scaling=1.0,
+                dropout=0.0,
                 sparse_meta_data={},
                 previous_mask=empty_previous_mask,
             )
@@ -375,6 +381,8 @@ def test_hash_attention_top_k_masker_add_mask_full_previous(
             queries=test_tensors["queries"],
             values=test_tensors["values"],
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data={},
             previous_mask=full_previous_mask,
             layer_idx=0,
@@ -408,6 +416,8 @@ def test_hash_attention_top_k_masker_add_mask_small_sequence(
             queries=large_test_tensors["queries"],
             values=large_test_tensors["values"],
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data={},
             previous_mask=empty_previous_mask,
             layer_idx=0,
@@ -440,6 +450,8 @@ def test_hash_attention_top_k_masker_add_mask_integer_heavy_size(
             queries=test_tensors["queries"],
             values=test_tensors["values"],
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data={},
             previous_mask=empty_previous_mask,
             layer_idx=0,
@@ -481,6 +493,8 @@ def test_hash_attention_top_k_masker_add_mask_float_heavy_size(
             queries=test_tensors["queries"],
             values=test_tensors["values"],
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data={},
             previous_mask=empty_previous_mask,
             layer_idx=0,
@@ -525,6 +539,8 @@ def test_hash_attention_top_k_masker_add_mask_merge_with_previous(
             queries=large_test_tensors["queries"],
             values=large_test_tensors["values"],
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data={},
             previous_mask=previous_mask,
             layer_idx=0,
@@ -577,6 +593,8 @@ def test_hash_attention_top_k_masker_add_mask_signature_caching(
             queries=test_tensors["queries"],
             values=test_tensors["values"],
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data=sparse_meta_data,
             previous_mask=empty_previous_mask,
             layer_idx=0,
@@ -605,6 +623,8 @@ def test_hash_attention_top_k_masker_add_mask_signature_caching(
             queries=test_tensors["queries"],
             values=test_tensors["values"],
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data=sparse_meta_data,
             previous_mask=empty_previous_mask,
             layer_idx=0,
@@ -640,6 +660,8 @@ def test_hash_attention_top_k_masker_add_mask_different_activations(
             queries=test_tensors["queries"],
             values=test_tensors["values"],
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data={},
             previous_mask=empty_previous_mask,
             layer_idx=0,
 
@@ -95,6 +95,8 @@ def test_oracle_top_k_masker_add_mask_full_previous(self):
             queries=queries,
             values=values,
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data=None,
             previous_mask=full_previous_mask,
         )
@@ -129,6 +131,8 @@ def test_oracle_top_k_masker_add_mask_small_sequence(self):
             queries=queries,
             values=values,
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data=None,
             previous_mask=empty_previous_mask,
         )
@@ -163,6 +167,8 @@ def test_oracle_top_k_masker_add_mask_integer_heavy_size(self):
             queries=queries,
             values=values,
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data=None,
             previous_mask=empty_previous_mask,
         )
@@ -205,6 +211,8 @@ def test_oracle_top_k_masker_add_mask_float_heavy_size(self):
             queries=queries,
             values=values,
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data=None,
             previous_mask=empty_previous_mask,
         )
@@ -260,6 +268,8 @@ def test_oracle_top_k_masker_add_mask_avoids_previous_active(self):
             queries=queries,
             values=values,
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data=None,
             previous_mask=previous_mask,
         )
@@ -313,6 +323,8 @@ def test_oracle_top_k_masker_add_mask_merge_with_previous(self):
             queries=queries,
             values=values,
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data=None,
             previous_mask=previous_mask,
         )
@@ -364,6 +376,8 @@ def test_oracle_top_k_masker_add_mask_edge_case_heavy_size_zero(self):
             queries=queries,
             values=values,
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data=None,
             previous_mask=empty_previous_mask,
         )
@@ -398,6 +412,8 @@ def test_oracle_top_k_masker_add_mask_edge_case_heavy_size_one(self):
             queries=queries,
             values=values,
             attention_mask=None,
+            scaling=1.0,
+            dropout=0.0,
             sparse_meta_data=None,
             previous_mask=empty_previous_mask,
         )
Original file line number	Diff line number	Diff line change
`@@ -117,6 +117,9 @@ def _compute_top_p_thresholds(`
`117`	`117`	`threshold_positions = torch.searchsorted(`
`118`	`118`	`normalized_cumsum, top_p_tensor, side="right"`
`119`	`119`	`)`
	`120`	`+ # if top_p is 1.0, then threshold_positions will be equal to sorted_scores.shape[-1]`
	`121`	`+ # which is not a valid index, so we clamp it to the last valid index`
	`122`	`+ threshold_positions = torch.clamp(threshold_positions, max=sorted_scores.shape[-1] - 1)`
`120`	`123`	`thresholds = torch.gather(sorted_scores, dim=-1, index=threshold_positions)`
`121`	`124`	`return thresholds`
`122`	`125`