aphp
diff --git a/‎edsnlp/pipes/core/endlines/model.py‎
Lines changed: 14 additions & 8 deletions b/‎edsnlp/pipes/core/endlines/model.py‎
Lines changed: 14 additions & 8 deletions
diff --git a/‎edsnlp/pipes/qualifiers/base.py‎
Lines changed: 2 additions & 13 deletions b/‎edsnlp/pipes/qualifiers/base.py‎
Lines changed: 2 additions & 13 deletions
diff --git a/‎edsnlp/viz/quick_examples.py‎
Lines changed: 0 additions & 182 deletions b/‎edsnlp/viz/quick_examples.py‎
Lines changed: 0 additions & 182 deletions
diff --git a/‎pyproject.toml‎
Lines changed: 5 additions & 9 deletions b/‎pyproject.toml‎
Lines changed: 5 additions & 9 deletions
diff --git a/‎tests/data/test_lazy_collection.py‎
Lines changed: 2 additions & 1 deletion b/‎tests/data/test_lazy_collection.py‎
Lines changed: 2 additions & 1 deletion
@@ -6,9 +6,6 @@
 from numpy.lib.function_base import iterable
 from pandas.api.types import CategoricalDtype
 from pandas.core.groupby import DataFrameGroupBy
-from scipy.sparse import hstack
-from sklearn.naive_bayes import MultinomialNB
-from sklearn.preprocessing import OneHotEncoder
 from spacy.strings import StringStore
 from spacy.tokens import Doc
 
@@ -83,7 +80,7 @@ def _preprocess_data(self, corpus: Iterable[Doc]) -> pd.DataFrame:
         )
 
         # Assign a sentence id to each token
-        df = df.groupby("DOC_ID").apply(self._retrieve_lines)
+        df = df.groupby("DOC_ID", as_index=False).apply(self._retrieve_lines)
         df["SENTENCE_ID"] = df["SENTENCE_ID"].astype("int")
 
         # Compute B1 and B2
@@ -404,6 +401,8 @@ def _fit_M1(
             [description]
 
         """
+        from sklearn.naive_bayes import MultinomialNB
+
         # Encode classes to OneHotEncoder representation
         encoder_A1_A2 = self._fit_encoder_2S(A1, A2)
         self.encoder_A1_A2 = encoder_A1_A2
@@ -427,6 +426,7 @@ def _fit_M2(self, B1: pd.Series, B2: pd.Series, label: pd.Series):
         B2 : pd.Series
         label : pd.Series
         """
+        from sklearn.naive_bayes import MultinomialNB
 
         # Encode classes to OneHotEncoder representation
         encoder_B1 = self._fit_encoder_1S(B1)
@@ -456,6 +456,8 @@ def _get_X_for_M1(
         -------
         np.ndarray
         """
+        from scipy.sparse import hstack
+
         A1_enc = self._encode_series(self.encoder_A1_A2, A1)
         A2_enc = self._encode_series(self.encoder_A1_A2, A2)
         A3_enc = self._encode_series(self.encoder_A3_A4, A3)
@@ -475,6 +477,8 @@ def _get_X_for_M2(self, B1: pd.Series, B2: pd.Series) -> np.ndarray:
         -------
         np.ndarray
         """
+        from scipy.sparse import hstack
+
         B1_enc = self._encode_series(self.encoder_B1, B1)
         B2_enc = self._encode_series(self.encoder_B2, B2)
         X = hstack([B1_enc, B2_enc])
@@ -520,7 +524,7 @@ def _predict_M2(self, B1: pd.Series, B2: pd.Series) -> Dict[str, Any]:
         outputs = {"predictions": predictions, "predictions_proba": predictions_proba}
         return outputs
 
-    def _fit_encoder_2S(self, S1: pd.Series, S2: pd.Series) -> OneHotEncoder:
+    def _fit_encoder_2S(self, S1: pd.Series, S2: pd.Series):
         """Fit a one hot encoder with 2 Series. It concatenates the series and after it
         fits.
 
@@ -539,7 +543,7 @@ def _fit_encoder_2S(self, S1: pd.Series, S2: pd.Series) -> OneHotEncoder:
         encoder = self._fit_one_hot_encoder(S)
         return encoder
 
-    def _fit_encoder_1S(self, S1: pd.Series) -> OneHotEncoder:
+    def _fit_encoder_1S(self, S1: pd.Series):
         """Fit a one hot encoder with 1 Series.
 
         Parameters
@@ -554,7 +558,7 @@ def _fit_encoder_1S(self, S1: pd.Series) -> OneHotEncoder:
         encoder = self._fit_one_hot_encoder(_S1)
         return encoder
 
-    def _encode_series(self, encoder: OneHotEncoder, S: pd.Series) -> np.ndarray:
+    def _encode_series(self, encoder, S: pd.Series) -> np.ndarray:
         """Use the one hot encoder to transform a series.
 
         Parameters
@@ -751,7 +755,7 @@ def _get_string(cls, _id: int, string_store: StringStore) -> str:
         return string_store[_id]
 
     @classmethod
-    def _fit_one_hot_encoder(cls, X: np.ndarray) -> OneHotEncoder:
+    def _fit_one_hot_encoder(cls, X: np.ndarray):
         """Fit a one hot encoder.
 
         Parameters
@@ -763,6 +767,8 @@ def _fit_one_hot_encoder(cls, X: np.ndarray) -> OneHotEncoder:
         -------
         OneHotEncoder
         """
+        from sklearn.preprocessing import OneHotEncoder
+
         encoder = OneHotEncoder(handle_unknown="ignore")
         encoder.fit(X)
         return encoder
@@ -1,7 +1,7 @@
+import warnings
 from itertools import chain
 from typing import Dict, List, Optional, Set, Union
 
-from loguru import logger
 from spacy.tokens import Doc, Span
 
 from edsnlp.core import PipelineProtocol
@@ -19,25 +19,14 @@ def check_normalizer(nlp: PipelineProtocol) -> None:
     normalizer = components.get("normalizer")
 
     if normalizer and not normalizer.lowercase:
-        logger.warning(
+        warnings.warn(
             "You have chosen the NORM attribute, but disabled lowercasing "
             "in your normalisation pipeline. "
             "This WILL hurt performance : you might want to use the "
             "LOWER attribute instead."
         )
 
 
-def get_qualifier_extensions(nlp: PipelineProtocol):
-    """
-    Check for all qualifiers present in the pipe and return its corresponding extension
-    """
-    return {
-        name: nlp.get_pipe_meta(name).assigns[0].split("span.")[-1]
-        for name, pipe in nlp.pipeline
-        if isinstance(pipe, RuleBasedQualifier)
-    }
-
-
 class RuleBasedQualifier(BaseSpanAttributeClassifierComponent):
     """
     Implements the ConText algorithm (eq. NegEx for negations) for detecting contextual
 
@@ -9,23 +9,18 @@ readme = "README.md"
 requires-python = ">=3.7.1"
 dynamic = ['version']
 dependencies = [
-    "decorator",
     "loguru",
     "pytz",
-    "python-dateutil",
-    "pydantic>=1.10.2",
     "pysimstring>=1.2.1",
     "regex",
-    "rich>=12.0.0",
-    "scikit-learn>=1.0.0",
     "spacy>=3.1,<4.0.0",
     "confit>=0.5.5",
     "tqdm",
     "umls-downloader>=0.1.1",
     "numpy>=1.15.0,<1.23.2; python_version<'3.8'",
     "numpy>=1.15.0; python_version>='3.8'",
-    "pandas>=1.1.0,<2.0.0; python_version<'3.8'",
-    "pandas>=1.4.0,<2.0.0; python_version>='3.8'",
+    "pandas>=1.1.0; python_version<'3.8'",
+    "pandas>=1.4.0; python_version>='3.8'",
     "typing-extensions>=4.0.0",
     "dill",
     # Packaging
@@ -36,17 +31,16 @@ dependencies = [
     "fsspec; python_version>='3.8'",
     "fsspec<2023.1.0; python_version<'3.8'",
     # this is only to avoid backtracking issues with spacy's capping
+    "pydantic>=1.10.2",
     "pydantic<2.0.0; python_version<'3.8'",
     "pydantic-core<2.0.0; python_version<'3.8'",
 ]
 [project.optional-dependencies]
 dev = [
-    "black>=22.3.0",
     "pre-commit>=2.0.0; python_version<'3.8'",
     "pre-commit>=2.21.0; python_version>='3.8'",
     "pytest>=7.1.0",
     "pytest-cov>=3.0.0",
-    "pytest-html>=3.1.1",
     "polars",
 
     # Distributed inference
@@ -77,6 +71,7 @@ dev = [
     "safetensors>=0.3.0",
     "transformers>=4.0.0,<5.0.0",
     "accelerate>=0.20.3,<1.0.0",
+    "scikit-learn>=1.0.0",
 ]
 setup = [
     "typer"
@@ -88,6 +83,7 @@ ml = [
     "safetensors>=0.3.0",
     "transformers>=4.0.0,<5.0.0",
     "accelerate>=0.20.3,<1.0.0",
+    "scikit-learn>=1.0.0",
 ]
 
 [project.urls]
 
@@ -1,5 +1,4 @@
 import pytest
-import torch
 
 import edsnlp
 from edsnlp.utils.collections import ld_to_dl
@@ -31,6 +30,8 @@ def test_flat_iterable(num_cpu_workers):
 
 @pytest.mark.parametrize("num_gpu_workers", [0, 1])
 def test_map_gpu(num_gpu_workers):
+    import torch
+
     def prepare_batch(batch, device):
         return {"tensor": torch.tensor(batch).to(device)}