v7.8.0

BBC-Esq · web-flow · commit 277a43602e9f · 2025-05-19T13:55:43.000-04:00
diff --git a/src/constants.py b/src/constants.py
@@ -121,7 +121,7 @@
     "chardet==5.2.0",
     "charset-normalizer==3.4.2", # requests requires <4
     "chattts==0.2.3",
-    "click==8.2.0",
+    "click==8.1.8",
     "cloudpickle==3.1.1", # only required by tiledb-cloud and 3+ is only supported by tiledb-cloud 0.13+
     "colorama==0.4.6",
     "coloredlogs==15.0.1",
@@ -230,8 +230,8 @@
     "pyarrow==20.0.0",
     "pybase16384==0.3.8", # only required by chattts
     "pycparser==2.22",
-    "pydantic==2.11.4", # unstructured-client==0.34.0 requires pydantic>=2.11.2
-    "pydantic_core==2.33.2", # pydantic 2.11.4 requires pydantic_core==2.33.2
+    "pydantic==2.11.3", # unstructured-client==0.35.0 requires pydantic>=2.11.2
+    "pydantic_core==2.33.1", # pydantic 2.11.3 requires pydantic_core==2.33.1
     "pydantic-settings==2.9.1", # langchain-community==0.3.23 requires pydantic-settings>=2.4.0,<3.0.0
     "Pygments==2.19.1",
     "PyOpenGL==3.1.9",
@@ -489,37 +489,14 @@
 VECTOR_MODELS = {
     'Alibaba-NLP': [
         {
-            'name': 'Alibaba-gte-base',
-            'dimensions': 768,
+            'name': 'gte-Qwen2-1.5B-instruct',
+            'dimensions': 1536,
             'max_sequence': 8192,
-            'size_mb': 547,
-            'repo_id': 'Alibaba-NLP/gte-base-en-v1.5',
-            'cache_dir': 'Alibaba-NLP--gte-base-en-v1.5',
+            'size_mb': 7100,
+            'repo_id': 'Alibaba-NLP/gte-Qwen2-1.5B-instruct',
+            'cache_dir': 'Alibaba-NLP--gte-Qwen2-1.5B-instruct',
             'type': 'vector',
-            'parameters': '137m',
-            'precision': 'float32'
-        },
-        # compiles with triton and search requires cuda
-        {
-            'name': 'Alibaba-gte-modernbert-base',
-            'dimensions': 768,
-            'max_sequence': 8192,
-            'size_mb': 298,
-            'repo_id': 'Alibaba-NLP/gte-modernbert-base',
-            'cache_dir': 'Alibaba-NLP--gte-modernbert-base',
-            'type': 'vector',
-            'parameters': '149m',
-            'precision': 'float16'
-        },
-        {
-            'name': 'Alibaba-gte-large',
-            'dimensions': 1024,
-            'max_sequence': 8192,
-            'size_mb': 1740,
-            'repo_id': 'Alibaba-NLP/gte-large-en-v1.5',
-            'cache_dir': 'Alibaba-NLP--gte-large-en-v1.5',
-            'type': 'vector',
-            'parameters': '434m',
+            'parameters': '1780m',
             'precision': 'float32'
         },
     ],
@@ -557,6 +534,17 @@
             'parameters': '335m',
             'precision': 'float32'
         },
+        # {
+            # 'name': 'bge-code-v1',
+            # 'dimensions': 1536,
+            # 'max_sequence': 4096,
+            # 'size_mb': 1340,
+            # 'repo_id': 'BAAI/bge-code-v1',
+            # 'cache_dir': 'BAAI--bge-code-v1',
+            # 'type': 'vector',
+            # 'parameters': '1540m',
+            # 'precision': 'float32'
+        # },
     ],
     'IBM': [
         {
@@ -582,6 +570,30 @@
             'precision': 'bfloat16'
         },
     ],
+    'infly': [
+        {
+            'name': 'infly-retriever-v1-1.5b',
+            'dimensions': 1536,
+            'max_sequence': 8192,
+            'size_mb': 3090,
+            'repo_id': 'infly/inf-retriever-v1-1.5b',
+            'cache_dir': 'infly--inf-retriever-v1-1.5b',
+            'type': 'vector',
+            'parameters': '1540m',
+            'precision': 'bfloat16'
+        },
+        {
+            'name': 'infly-retriever-v1-7b',
+            'dimensions': 3584,
+            'max_sequence': 8192,
+            'size_mb': 14130,
+            'repo_id': 'infly/inf-retriever-v1',
+            'cache_dir': 'infly--inf-retriever-v1',
+            'type': 'vector',
+            'parameters': '7070m',
+            'precision': 'bfloat16'
+        },
+    ],
     'intfloat': [
         {
             'name': 'e5-small-v2',
@@ -617,35 +629,35 @@
             'precision': 'float32'
         },
     ],
-    'NovaSearch': [
-        {
-            'name': 'stella_en_1.5B_v5',
-            'dimensions': 1024,
-            'max_sequence': 131072,
-            'size_mb': 6170,
-            'repo_id': 'NovaSearch/stella_en_1.5B_v5',
-            'cache_dir': 'NovaSearch--stella_en_1.5B_v5',
-            'type': 'vector',
-            'parameters': '1540m',
-            'precision': 'float32'
-        },
-        {
-            'name': 'stella_en_400M_v5',
-            'dimensions': 1024,
-            'max_sequence': 8192,
-            'size_mb': 1740,
-            'repo_id': 'NovaSearch/stella_en_400M_v5',
-            'cache_dir': 'NovaSearch--stella_en_400M_v5',
-            'type': 'vector',
-            'parameters': '435m',
-            'precision': 'float32'
-        },
-    ],
+    # 'NovaSearch': [
+        # {
+            # 'name': 'stella_en_1.5B_v5',
+            # 'dimensions': 1024,
+            # 'max_sequence': 512,
+            # 'size_mb': 6170,
+            # 'repo_id': 'NovaSearch/stella_en_1.5B_v5',
+            # 'cache_dir': 'NovaSearch--stella_en_1.5B_v5',
+            # 'type': 'vector',
+            # 'parameters': '1540m',
+            # 'precision': 'float32'
+        # },
+        # {
+            # 'name': 'stella_en_400M_v5',
+            # 'dimensions': 1024,
+            # 'max_sequence': 512,
+            # 'size_mb': 1740,
+            # 'repo_id': 'NovaSearch/stella_en_400M_v5',
+            # 'cache_dir': 'NovaSearch--stella_en_400M_v5',
+            # 'type': 'vector',
+            # 'parameters': '435m',
+            # 'precision': 'float32'
+        # },
+    # ],
     'Snowflake': [
         {
             'name': 'arctic-embed-m-v2.0',
             'dimensions': 768,
-            'max_sequence': 8192,
+            'max_sequence':8192,
             'size_mb': 1220,
             'repo_id': 'Snowflake/snowflake-arctic-embed-m-v2.0',
             'cache_dir': 'Snowflake--snowflake-arctic-embed-m-v2.0',
@@ -2959,19 +2971,21 @@ def _generate_button_style(cls, color_values):
 ************************ 
 
 # https://github.com/pytorch/pytorch/blob/main/RELEASE.md#release-compatibility-matrix
-+-------+----------------------------+----------------------------------------+----------------------------+
-| Torch | Python                     | Stable                                 | Experimental               |
-+-------+----------------------------+----------------------------------------+----------------------------+
-| 2.6   | >=3.9, <=3.13              | CUDA 11.8, 12.4 + CUDNN 9.1.0.70       | CUDA 12.6 + CUDNN 9.5.1.17 | ***
-+-------+----------------------------+----------------------------------------+----------------------------+
-| 2.5   | >=3.9, <=3.12, (3.13 exp.) | CUDA 11.8, 12.1, 12.4 + CUDNN 9.1.0.70 | None                       |
-+-------+----------------------------+----------------------------------------+----------------------------+
-| 2.4   | >=3.8, <=3.12              | CUDA 11.8, 12.1 + CUDNN 9.1.0.70       | CUDA 12.4 + CUDNN 9.1.0.70 |
-+-------+----------------------------+----------------------------------------+----------------------------+
-| 2.3   | >=3.8, <=3.11, (3.12 exp.) | CUDA 11.8 + CUDNN 8.7.0.84             | CUDA 12.1 + CUDNN 8.9.2.26 |
-+-------+----------------------------+----------------------------------------+----------------------------+
-| 2.2   | >=3.8, <=3.11, (3.12 exp.) | CUDA 11.8 + CUDNN 8.7.0.84             | CUDA 12.1 + CUDNN 8.9.2.26 |
-+-------+----------------------------+----------------------------------------+----------------------------+
++-------+----------------------------+---------------------------------------------------+----------------------------+
+| Torch | Python                     | Stable                                            | Experimental               |
++-------+----------------------------+---------------------------------------------------+----------------------------+
+| 2.7   | >=3.9, <=3.13              | CUDA 11.8 (cudnn 9.1.0.70), 12.6 (cudnn 9.5.1.17) | CUDA 12.8 (CUDNN 9.7.1.26) | ***
++-------+----------------------------+---------------------------------------------------+----------------------------+
+| 2.6   | >=3.9, <=3.13              | CUDA 11.8, 12.4 + CUDNN 9.1.0.70                  | CUDA 12.6 + CUDNN 9.5.1.17 | ***
++-------+----------------------------+---------------------------------------------------+----------------------------+
+| 2.5   | >=3.9, <=3.12, (3.13 exp.) | CUDA 11.8, 12.1, 12.4 + CUDNN 9.1.0.70            | None                       |
++-------+----------------------------+---------------------------------------------------+----------------------------+
+| 2.4   | >=3.8, <=3.12              | CUDA 11.8, 12.1 + CUDNN 9.1.0.70                  | CUDA 12.4 + CUDNN 9.1.0.70 |
++-------+----------------------------+---------------------------------------------------+----------------------------+
+| 2.3   | >=3.8, <=3.11, (3.12 exp.) | CUDA 11.8 + CUDNN 8.7.0.84                        | CUDA 12.1 + CUDNN 8.9.2.26 |
++-------+----------------------------+---------------------------------------------------+----------------------------+
+| 2.2   | >=3.8, <=3.11, (3.12 exp.) | CUDA 11.8 + CUDNN 8.7.0.84                        | CUDA 12.1 + CUDNN 8.9.2.26 |
++-------+----------------------------+---------------------------------------------------+----------------------------+
 
 ***********************
 Torch & Python & Triton
diff --git a/src/database_interactions.py b/src/database_interactions.py
@@ -214,12 +214,26 @@ def prepare_encode_kwargs(self):
         # 1) add the custom prompt formatting if a query is being embedded
         if self.is_query:
             encode_kwargs["prompt"] = (
-                f"<instruct>{self.DEFAULT_INSTRUCTION}\n<query>"
+                f"<instruct>{self.DEFAULT_INSTRUCTION} <query>"
             )
 
         return encode_kwargs
 
 
+class InflyEmbedding(BaseEmbeddingModel):
+    def prepare_kwargs(self):
+        # 1) inherit all kwargs from the base class
+        infly_kwargs = super().prepare_kwargs()
+
+        # 2) update tokenizer_kwargs
+        tok_kw = infly_kwargs.setdefault("tokenizer_kwargs", {})
+        tok_kw.update({
+            "max_length": 8192,
+        })
+
+        return infly_kwargs
+
+
 def create_vector_db_in_process(database_name):
     create_vector_db = CreateVectorDB(database_name=database_name)
     create_vector_db.run()
@@ -270,6 +284,7 @@ def initialize_vector_model(self, embedding_model_name, config_data):
         model_kwargs = {
             "device": compute_device, 
             "trust_remote_code": True,
+            "similarity_fn_name": "euclidean", # (str, optional); "cosine" (default), "dot", "euclidean", "manhattan"
             "model_kwargs": {
                 "torch_dtype": torch_dtype if torch_dtype is not None else None
             }
@@ -294,6 +309,10 @@ def initialize_vector_model(self, embedding_model_name, config_data):
                 'gte-base': 14,
                 'arctic-embed-m': 14,
                 'stella_en_400M_v5': 20,
+                'bge-code': 2,
+                'infly-retriever-v1-1.5b': 4,
+                'infly-retriever-v1-7b': 2,
+                'stella_en_1.5b_v5': 4,
             }
 
             for key, value in batch_size_mapping.items():
@@ -311,13 +330,19 @@ def initialize_vector_model(self, embedding_model_name, config_data):
             model = SnowflakeEmbedding(embedding_model_name, model_kwargs, encode_kwargs).create()
         elif "alibaba" in embedding_model_name.lower():
             logger.debug("Matched Alibaba condition")
-            model = AlibabaEmbedding(embedding_model_name, model_kwargs, encode_kwargs).create()
+            model = InflyEmbedding(embedding_model_name, model_kwargs, encode_kwargs).create()
         elif "400m" in embedding_model_name.lower():
             logger.debug("Matched Stella 400m condition")
             model = Stella400MEmbedding(embedding_model_name, model_kwargs, encode_kwargs).create()
-        elif "1.5b" in embedding_model_name.lower():
+        elif "stella_en_1.5b_v5" in embedding_model_name.lower():
             logger.debug("Matched Stella 1.5B condition")
             model = StellaEmbedding(embedding_model_name, model_kwargs, encode_kwargs).create()
+        elif "bge-code" in embedding_model_name.lower():
+            logger.debug("Matches bge-code condition")
+            model = BgeCodeEmbedding(embedding_model_name, model_kwargs, encode_kwargs).create()
+        elif "infly" in embedding_model_name.lower():
+            logger.debug("Matches infly condition")
+            model = InflyEmbedding(embedding_model_name, model_kwargs, encode_kwargs).create()
         else:
             logger.debug("No conditions matched - using base model")
             model = BaseEmbeddingModel(embedding_model_name, model_kwargs, encode_kwargs).create()
@@ -359,7 +384,7 @@ def create_database(self, texts, embeddings):
                 tiledb_id = str(random.randint(0, MAX_UINT64 - 1))
 
                 text_str = str(doc.page_content or "").strip()
-                if not text_str:            # silently drop zero-length chunks
+                if not text_str: # silently drop zero-length chunks
                     continue
                 all_texts.append(text_str)
 
@@ -383,7 +408,7 @@ def create_database(self, texts, embeddings):
             with open(self.ROOT_DIRECTORY / "config.yaml", 'r', encoding='utf-8') as config_file:
                 config_data = yaml.safe_load(config_file)
 
-            # pre‑compute vectors, then write DB
+            # precompute vectors, then write DB
             vectors = embeddings.embed_documents(all_texts)
             text_embed_pairs = [
                 (txt, np.asarray(vec, dtype=np.float32))
@@ -470,7 +495,6 @@ def create_metadata_db(self, documents, hash_id_mappings):
         finally:
             conn.close()
 
-
     def load_audio_documents(self, source_dir: Path = None) -> list:
         if source_dir is None:
             source_dir = self.SOURCE_DIRECTORY
@@ -598,39 +622,50 @@ def load_configuration(self):
             raise
 
     @torch.inference_mode()
-    def initialize_vector_model(self):     
-        model_path = self.config['created_databases'][self.selected_database]['model']
+    def initialize_vector_model(self):
+        model_path   = self.config['created_databases'][self.selected_database]['model']
         self.model_name = os.path.basename(model_path)
-        compute_device = self.config['Compute_Device']['database_query']
+        compute_device  = self.config['Compute_Device']['database_query']
 
+        # ── outer kwargs passed to SentenceTransformer ──────────────
         model_kwargs = {
-            "device": compute_device, 
+            "device": compute_device,
             "trust_remote_code": True,
-            "model_kwargs": {}
+            "similarity_fn_name": "euclidean", # (str, optional); "cosine" (default), "dot", "euclidean", "manhattan"
+            "model_kwargs": {
+                "trust_remote_code": True,
+            },
+            "tokenizer_kwargs": {
+                "use_fast": True,
+                "trust_remote_code": True,
+            },
         }
-        # encode_kwargs = {'normalize_embeddings': True}
 
-        if "snowflake" in model_path.lower():
-            logger.debug("Matched Snowflake condition")
+        encode_kwargs = {"batch_size": 1}
+
+        mp_lower = model_path.lower()
+        if "snowflake" in mp_lower:
             embeddings = SnowflakeEmbedding(model_path, model_kwargs, encode_kwargs, is_query=True).create()
-        elif "alibaba" in model_path.lower():
-            logger.debug("Matched Alibaba condition")
-            embeddings = AlibabaEmbedding(model_path, model_kwargs, encode_kwargs, is_query=True).create()
-        elif "400m" in model_path.lower():
-            logger.debug("Matched Stella 400m condition")
+        elif "alibaba" in mp_lower:
+            embeddings = InflyEmbedding(model_path, model_kwargs, encode_kwargs, is_query=True).create()
+        elif "400m" in mp_lower:
             embeddings = Stella400MEmbedding(model_path, model_kwargs, encode_kwargs, is_query=True).create()
-        elif "1.5b" in model_path.lower():
-            logger.debug("Matched Stella 1.5B condition")
+        elif "stella_en_1.5b_v5" in mp_lower:
             embeddings = StellaEmbedding(model_path, model_kwargs, encode_kwargs, is_query=True).create()
+        elif "infly" in mp_lower:
+            embeddings = InflyEmbedding(model_path, model_kwargs, encode_kwargs, is_query=True).create()
+        elif "bge-code" in mp_lower:
+            embeddings = BgeCodeEmbedding(model_path, model_kwargs, encode_kwargs, is_query=True).create()
         else:
-            if "bge" in model_path.lower():
-                logger.debug("Matched BGE condition - setting prompt in encode_kwargs")
-                encode_kwargs["prompt"] = "Represent this sentence for searching relevant passages: "
-            logger.debug("No specific condition matched - using base model")
+            if "bge" in mp_lower:
+                encode_kwargs["prompt"] = (
+                    "Represent this sentence for searching relevant passages: "
+                )
             embeddings = BaseEmbeddingModel(model_path, model_kwargs, encode_kwargs, is_query=True).create()
 
         return embeddings
 
+
     def initialize_database(self):
         persist_directory = Path(__file__).resolve().parent / "Vector_DB" / self.selected_database
 
diff --git a/src/gui_tabs_models.py b/src/gui_tabs_models.py
@@ -22,10 +22,11 @@ def __init__(self, parent=None):
        self.model_radiobuttons.setExclusive(True)
        self.stretch_factors = {
            'BAAI': 4,
-           'NovaSearch': 3,
+           # 'NovaSearch': 3,
            'intfloat': 4,
-           'Alibaba-NLP': 4,
+           'Alibaba-NLP': 2,
            'IBM': 3,
+           'infly': 3,
            'Snowflake': 3,
        }