minerva-ml
diff --git a/‎main.py‎
Lines changed: 1 addition & 0 deletions b/‎main.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎neptune.yaml‎
Lines changed: 13 additions & 12 deletions b/‎neptune.yaml‎
Lines changed: 13 additions & 12 deletions
diff --git a/‎neptune_random_search.yaml‎
Lines changed: 4 additions & 4 deletions b/‎neptune_random_search.yaml‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎src/feature_extraction.py‎
Lines changed: 71 additions & 27 deletions b/‎src/feature_extraction.py‎
Lines changed: 71 additions & 27 deletions
diff --git a/‎src/models.py‎
Lines changed: 31 additions & 26 deletions b/‎src/models.py‎
Lines changed: 31 additions & 26 deletions
@@ -1,4 +1,5 @@
 import click
+
 from src.pipeline_manager import PipelineManager
 
 pipeline_manager = PipelineManager()
 
@@ -1,11 +1,11 @@
 project: ORGANIZATION/Santander-Value-Prediction-Challenge
 
 name: Santander-Value-Prediction-Challenge
-tags: [solution-2]
+tags: [solution-3]
 
 metric:
-  channel: 'ROC_AUC'
-  goal: maximize
+  channel: 'RMSLE'
+  goal: minimize
 
 exclude:
   - output
@@ -22,12 +22,12 @@ parameters:
 # Data
   train_filepath:             YOUR/PATH/TO/train.csv
   test_filepath:              YOUR/PATH/TO/test.csv
-  sample_submission_filepath: YOUR/PATH/TO/test.csv/sample_submission.csv
+  sample_submission_filepath: YOUR/PATH/TO/sample_submission.csv
   experiment_directory:       YOUR/PATH/WORKDIR
 
 # Kaggle
   kaggle_api: 0
-  kaggle_message: 'solution-2'
+  kaggle_message: 'solution-3'
 
 # Data preparation
   n_cv_splits: 5
@@ -44,6 +44,7 @@ parameters:
   variance_threshold__threshold: 0.0
 
 # Feature Extraction
+  row_aggregations__bucket_nrs: "[1, 2]"
   truncated_svd__use: False
   truncated_svd__n_components: 50
   truncated_svd__n_iter: 10
@@ -66,15 +67,15 @@ parameters:
   lgbm__objective: rmse
   lgbm__metric: rmse
   lgbm__number_boosting_rounds: 10000
-  lgbm__early_stopping_rounds: 100
-  lgbm__learning_rate: 0.01
-  lgbm__num_leaves: 180
+  lgbm__early_stopping_rounds: 1000
+  lgbm__learning_rate: 0.001
+  lgbm__num_leaves: 16
   lgbm__max_depth: -1
   lgbm__min_child_samples: 1
-  lgbm__max_bin: 255  # at most 255 for device=gpu
-  lgbm__subsample: 0.5
-  lgbm__subsample_freq: 4
-  lgbm__colsample_bytree: 0.5
+  lgbm__max_bin: 300
+  lgbm__subsample: 1.0
+  lgbm__subsample_freq: 1
+  lgbm__colsample_bytree: 0.1
   lgbm__min_child_weight: 10
   lgbm__reg_lambda: 0.1
   lgbm__reg_alpha: 0.0
 
@@ -1,7 +1,7 @@
 project: ORGANIZATION/Santander-Value-Prediction-Challenge
 
 name: Santander-Value-Prediction-Challenge
-tags: [solution-2]
+tags: [solution-3]
 
 metric:
   channel: 'RMSLE'
@@ -22,12 +22,12 @@ parameters:
 # Data
   train_filepath:             YOUR/PATH/TO/train.csv
   test_filepath:              YOUR/PATH/TO/test.csv
-  sample_submission_filepath: YOUR/PATH/TO/test.csv/sample_submission.csv
+  sample_submission_filepath: YOUR/PATH/TO/sample_submission.csv
   experiment_directory:       YOUR/PATH/WORKDIR
 
 # Kaggle
   kaggle_api: 0
-  kaggle_message: 'solution-2'
+  kaggle_message: 'solution-3'
 
 # Data preparation
   n_cv_splits: 5
@@ -44,6 +44,7 @@ parameters:
   variance_threshold__threshold: 0.0
 
 # Feature Extraction
+  row_aggregations__bucket_nrs: "[1, 2]"
   truncated_svd__use: False
   truncated_svd__n_components: 50
   truncated_svd__n_iter: 10
@@ -83,4 +84,3 @@ parameters:
 
 # Postprocessing
   aggregation_method: mean
-  
@@ -1,8 +1,8 @@
 import numpy as np
 import pandas as pd
-from scipy.stats import skew, kurtosis
 import sklearn.decomposition as sk_d
 import sklearn.random_projection as sk_rp
+from scipy.stats import skew, kurtosis
 from sklearn.externals import joblib
 from steppy.base import BaseTransformer
 from steppy.utils import get_logger
@@ -84,34 +84,78 @@ def __init__(self, **kwargs):
 
 
 class RowAggregationFeatures(BaseTransformer):
+    def __init__(self, bucket_nr, **kwargs):
+        super().__init__()
+        self.bucket_nr = bucket_nr
+
     def transform(self, X, **kwargs):
-        X_agg = X.apply(aggregate_row, axis=1)
-        return {'numerical_features': X_agg}
+        X_aggs = []
+        for i, column_bucket in enumerate(self._column_bucket_gen(X.columns)):
+            X_bucket_agg = X[column_bucket].apply(aggregate_row, axis=1)
+            X_bucket_agg.columns = self._add_prefix(X_bucket_agg.columns, i)
+            X_aggs.append(X_bucket_agg)
+        X_aggs = pd.concat(X_aggs, axis=1)
+        return {'numerical_features': X_aggs}
+
+    def _column_bucket_gen(self, cols):
+        chunk_size = len(cols) // self.bucket_nr + 1
+        for i in range(0, len(cols), chunk_size):
+            yield cols[i:i + chunk_size]
+
+    def _add_prefix(self, columns, bucket_id):
+        columns = ['{}_of_{}_{}'.format(self.bucket_nr, bucket_id, col)
+                   for col in columns]
+        return columns
 
 
 def aggregate_row(row):
     non_zero_values = row.iloc[row.nonzero()]
-    aggs = {'non_zero_mean': non_zero_values.mean(),
-            'non_zero_std': non_zero_values.std(),
-            'non_zero_max': non_zero_values.max(),
-            'non_zero_min': non_zero_values.min(),
-            'non_zero_sum': non_zero_values.sum(),
-            'non_zero_skewness': skew(non_zero_values),
-            'non_zero_kurtosis': kurtosis(non_zero_values),
-            'non_zero_median': non_zero_values.median(),
-            'non_zero_q1': np.percentile(non_zero_values, q=25),
-            'non_zero_q3': np.percentile(non_zero_values, q=75),
-            'non_zero_log_mean': np.log1p(non_zero_values).mean(),
-            'non_zero_log_std': np.log1p(non_zero_values).std(),
-            'non_zero_log_max': np.log1p(non_zero_values).max(),
-            'non_zero_log_min': np.log1p(non_zero_values).min(),
-            'non_zero_log_sum': np.log1p(non_zero_values).sum(),
-            'non_zero_log_skewness': skew(np.log1p(non_zero_values)),
-            'non_zero_log_kurtosis': kurtosis(np.log1p(non_zero_values)),
-            'non_zero_log_median': np.log1p(non_zero_values).median(),
-            'non_zero_log_q1': np.percentile(np.log1p(non_zero_values), q=25),
-            'non_zero_log_q3': np.percentile(np.log1p(non_zero_values), q=75),
-            'non_zero_count': non_zero_values.count(),
-            'non_zero_fraction': non_zero_values.count() / row.count()
-            }
-    return pd.Series(aggs)
+    if non_zero_values.empty:
+        aggregations = {'non_zero_mean': np.nan,
+                        'non_zero_std': np.nan,
+                        'non_zero_max': np.nan,
+                        'non_zero_min': np.nan,
+                        'non_zero_sum': np.nan,
+                        'non_zero_skewness': np.nan,
+                        'non_zero_kurtosis': np.nan,
+                        'non_zero_median': np.nan,
+                        'non_zero_q1': np.nan,
+                        'non_zero_q3': np.nan,
+                        'non_zero_log_mean': np.nan,
+                        'non_zero_log_std': np.nan,
+                        'non_zero_log_max': np.nan,
+                        'non_zero_log_min': np.nan,
+                        'non_zero_log_sum': np.nan,
+                        'non_zero_log_skewness': np.nan,
+                        'non_zero_log_kurtosis': np.nan,
+                        'non_zero_log_median': np.nan,
+                        'non_zero_log_q1': np.nan,
+                        'non_zero_log_q3': np.nan,
+                        'non_zero_count': np.nan,
+                        'non_zero_fraction': np.nan
+                        }
+    else:
+        aggregations = {'non_zero_mean': non_zero_values.mean(),
+                        'non_zero_std': non_zero_values.std(),
+                        'non_zero_max': non_zero_values.max(),
+                        'non_zero_min': non_zero_values.min(),
+                        'non_zero_sum': non_zero_values.sum(),
+                        'non_zero_skewness': skew(non_zero_values),
+                        'non_zero_kurtosis': kurtosis(non_zero_values),
+                        'non_zero_median': non_zero_values.median(),
+                        'non_zero_q1': np.percentile(non_zero_values, q=25),
+                        'non_zero_q3': np.percentile(non_zero_values, q=75),
+                        'non_zero_log_mean': np.log1p(non_zero_values).mean(),
+                        'non_zero_log_std': np.log1p(non_zero_values).std(),
+                        'non_zero_log_max': np.log1p(non_zero_values).max(),
+                        'non_zero_log_min': np.log1p(non_zero_values).min(),
+                        'non_zero_log_sum': np.log1p(non_zero_values).sum(),
+                        'non_zero_log_skewness': skew(np.log1p(non_zero_values)),
+                        'non_zero_log_kurtosis': kurtosis(np.log1p(non_zero_values)),
+                        'non_zero_log_median': np.log1p(non_zero_values).median(),
+                        'non_zero_log_q1': np.percentile(np.log1p(non_zero_values), q=25),
+                        'non_zero_log_q3': np.percentile(np.log1p(non_zero_values), q=75),
+                        'non_zero_count': non_zero_values.count(),
+                        'non_zero_fraction': non_zero_values.count() / row.count()
+                        }
+    return pd.Series(aggregations)
@@ -1,9 +1,9 @@
+import lightgbm as lgb
 import numpy as np
 import pandas as pd
-import lightgbm as lgb
 from attrdict import AttrDict
-from sklearn.externals import joblib
 from deepsense import neptune
+from sklearn.externals import joblib
 from steppy.base import BaseTransformer
 
 from .utils import get_logger
@@ -13,13 +13,14 @@
 
 
 class LightGBM(BaseTransformer):
-    def __init__(self, **params):
+    def __init__(self, name=None, **params):
         super().__init__()
-        logger.info('initializing LightGBM...')
+        self.msg_prefix = 'LightGBM transformer'
+        logger.info('initializing {}.'.format(self.msg_prefix))
         self.params = params
         self.training_params = ['number_boosting_rounds', 'early_stopping_rounds']
         self.evaluation_function = None
-        self.callbacks = None
+        self.callbacks = callbacks(channel_prefix=name)
 
     @property
     def model_config(self):
@@ -32,24 +33,22 @@ def training_config(self):
                          if param in self.training_params})
 
     def fit(self,
-            X,
-            y,
-            X_valid,
-            y_valid,
+            X, y,
+            X_valid, y_valid,
             feature_names='auto',
             categorical_features='auto',
             **kwargs):
         evaluation_results = {}
 
         self._check_target_shape_and_type(y, 'y')
         self._check_target_shape_and_type(y_valid, 'y_valid')
-        y = self._format_target(y)
-        y_valid = self._format_target(y_valid)
+        y = self._format_target(y, 'y')
+        y_valid = self._format_target(y_valid, 'y_valid')
 
-        logger.info('LightGBM, train data shape        {}'.format(X.shape))
-        logger.info('LightGBM, validation data shape   {}'.format(X_valid.shape))
-        logger.info('LightGBM, train labels shape      {}'.format(y.shape))
-        logger.info('LightGBM, validation labels shape {}'.format(y_valid.shape))
+        logger.info('{}, train data shape        {}'.format(self.msg_prefix, X.shape))
+        logger.info('{}, validation data shape   {}'.format(self.msg_prefix, X_valid.shape))
+        logger.info('{}, train labels shape      {}'.format(self.msg_prefix, y.shape))
+        logger.info('{}, validation labels shape {}'.format(self.msg_prefix, y_valid.shape))
 
         data_train = lgb.Dataset(data=X,
                                  label=y,
@@ -91,30 +90,36 @@ def persist(self, filepath):
     def _check_target_shape_and_type(self, target, name):
         if not any([isinstance(target, obj_type) for obj_type in [pd.Series, np.ndarray, list]]):
             raise TypeError(
-                '"{}" must be "numpy.ndarray" or "Pandas.Series" or "list", got {} instead.'.format(type(target)))
+                '{}: "{}" must be "numpy.ndarray" or "Pandas.Series" or "list", got {} instead.'.format(
+                    self.msg_prefix,
+                    name,
+                    type(target)))
         try:
-            assert len(target.shape) == 1, '"{}" must be 1-D. It is {}-D instead.'.format(name,
-                                                                                          len(target.shape))
+            assert len(target.shape) == 1, '{}: "{}" must be 1-D. It is {}-D instead.'.format(self.msg_prefix,
+                                                                                              name,
+                                                                                              len(target.shape))
         except AttributeError:
-            print('Cannot determine shape of the {}. '
-                  'Type must be "numpy.ndarray" or "Pandas.Series" or "list", got {} instead'.format(name,
+            print('{}: cannot determine shape of the {}.'
+                  'Type must be "numpy.ndarray" or "Pandas.Series" or "list", got {} instead'.format(self.msg_prefix,
+                                                                                                     name,
                                                                                                      type(target)))
 
-    def _format_target(self, target):
-
+    def _format_target(self, target, name):
         if isinstance(target, pd.Series):
             return target.values
         elif isinstance(target, np.ndarray):
             return target
         elif isinstance(target, list):
             return np.array(target)
         else:
-            raise TypeError(
-                '"{}" must be "numpy.ndarray" or "Pandas.Series" or "list", got {} instead.'.format(type(target)))
+            raise TypeError('{}: "{}" must be "numpy.ndarray" or "Pandas.Series" or "list", got {} instead.'.format(
+                self.msg_prefix,
+                name,
+                type(target)))
 
 
-def callbacks(callback_config):
-    neptune_monitor = neptune_monitor_lgbm(**callback_config['neptune_monitor'])
+def callbacks(channel_prefix):
+    neptune_monitor = neptune_monitor_lgbm(channel_prefix)
     return [neptune_monitor]
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,5 @@`
`1`	`1`	`import click`
	`2`	`+`
`2`	`3`	`from src.pipeline_manager import PipelineManager`
`3`	`4`
`4`	`5`	`pipeline_manager = PipelineManager()`