005 (#17)

Xiangyan93 · web-flow · commit e66ca94e6d46 · 2023-11-05T13:37:19.000-05:00
* add feature: atomic attribution for cross-validation.
* bugfix of random forest.
* update for mgktools==0.0.5
diff --git a/README.md b/README.md
@@ -17,10 +17,10 @@ temperature, pressure, etc.
 </div> 
 
 ## Installation
-GCC (7.*), NVIDIA Driver and CUDA toolkit(>=10.1).  
+GCC (7.*), NVIDIA Driver and CUDA toolkit(>=10.1). 
+Python 3.10 is suggested.
 ```
-conda env create -f environment.yml
-conda activate graphdot
+pip install numpy==1.22.3 git+https://gitlab.com/Xiangyan93/graphdot.git@feature/xy git+https://github.com/bp-kelley/descriptastorus typed-argument-parser mgktools
 ```
 For some combinations of GCC and CUDA, only old version of pycuda works```pip install pycuda==2020.1```
 
diff --git a/chemml/args.py b/chemml/args.py
@@ -215,6 +215,8 @@ class TrainArgs(KernelArgs):
     """Save the trained model file."""
     separate_test_path: str = None
     """Path to separate test set, optional."""
+    atomic_attribution: bool = False
+    """Output interpretability."""
 
     @property
     def metrics(self) -> List[Metric]:
@@ -283,6 +285,11 @@ def process_args(self) -> None:
         if self.ensemble:
             assert self.n_sample_per_model is not None
 
+        if self.atomic_attribution:
+            assert self.graph_kernel_type == 'graph', 'Set graph_kernel_type to graph for interpretability'
+            assert self.model_type == 'gpr', 'Set model_type to gpr for interpretability'
+            assert self.ensemble is False
+
 
 class PredictArgs(TrainArgs):
     test_path: str
@@ -382,7 +389,7 @@ def process_args(self) -> None:
             self.cluster_size = self.add_size
         assert self.initial_size >= 2
         if self.surrogate_kernel is not None:
-            assert self.graph_kernel_type == 'preCalc'
+            assert self.graph_kernel_type == 'pre-computed'
 
         if self.stop_uncertainty is None:
             self.stop_uncertainty = [-1.0]
diff --git a/chemml/model.py b/chemml/model.py
@@ -2,17 +2,26 @@
 # -*- coding: utf-8 -*-
 from .args import TrainArgs
 from mgktools.models import GPR, GPC, LRAGPR, NLEGPR, SVC, SVR, ConsensusRegressor
+from mgktools.interpret.gpr import InterpretableGaussianProcessRegressor as IGPR
 
 
 def set_model(args: TrainArgs,
               kernel):
     if args.model_type == 'gpr':
-        model = GPR(
-            kernel=kernel,
-            optimizer=args.optimizer,
-            alpha=args.alpha_,
-            normalize_y=True,
-        )
+        if args.atomic_attribution:
+            model = IGPR(
+                kernel=kernel,
+                optimizer=args.optimizer,
+                alpha=args.alpha_,
+                normalize_y=False,
+            )
+        else:
+            model = GPR(
+                kernel=kernel,
+                optimizer=args.optimizer,
+                alpha=args.alpha_,
+                normalize_y=True,
+            )
         if args.ensemble:
             model = ConsensusRegressor(
                 model,
diff --git a/environment.yml b/environment.yml
diff --git a/run/ModelEvaluate.py b/run/ModelEvaluate.py
@@ -59,13 +59,16 @@ def main(args: TrainArgs) -> None:
                           n_similar=None,
                           kernel=None,
                           n_core=args.n_core,
+                          atomic_attribution=args.atomic_attribution,
                           seed=args.seed,
                           verbose=True)
 
     if args.separate_test_path is not None and args.target_columns is None:
         evaluator.fit(X=dataset.X, y=dataset.y)
         evaluator.predict(X=dataset_test.X, y=None, repr=dataset_test.repr.ravel()).to_csv(
             '%s/pred_ext.csv' % args.save_dir, sep='\t', index=False, float_format='%15.10f')
+        if args.atomic_attribution:
+            evaluator.interpret(dataset_test=dataset_test, output_tag='ext')
     else:
         evaluator.evaluate(external_test_dataset=dataset_test)
 
diff --git a/run/RandomForest.py b/run/RandomForest.py
@@ -47,9 +47,9 @@ class RandomForestArgs(Tap):
     """
     Type of task. This determines the loss function used during training.
     """
-    split_type: Literal['random', 'scaffold_balanced', 'loocv'] = None
+    split_type: Literal['random', 'scaffold_order', 'scaffold_random', 'loocv'] = None
     """Method of splitting the data into train/val/test."""
-    split_sizes: Tuple[float, float] = (0.8, 0.2)
+    split_sizes: List[float] = [0.8, 0.2]
     """Split proportions for train/validation/test sets."""
     num_folds: int = 1
     """Number of folds when performing cross validation."""
@@ -100,9 +100,9 @@ def main(args: RandomForestArgs) -> None:
     else:
         dataset_test = None
     if args.task_type == 'regression':
-        model = RandomForestRegressor()
+        model = RandomForestRegressor(random_state=args.seed)
     else:
-        model = RFClassifier()
+        model = RFClassifier(random_state=args.seed)
     Evaluator(save_dir=args.save_dir,
               dataset=dataset,
               model=model,
diff --git a/test/test_a_read_data.py b/test/test_a_read_data.py
@@ -4,6 +4,7 @@
 import os
 CWD = os.path.dirname(os.path.abspath(__file__))
 import sys
+import shutil
 sys.path.append('%s/..' % CWD)
 from chemml.args import CommonArgs
 from run.ReadData import main
@@ -18,7 +19,8 @@
 def test_ReadData_PureGraph(dataset):
     dataset, pure_columns, target_columns = dataset
     save_dir = '%s/data/_%s_%s_%s' % (CWD, dataset, ','.join(pure_columns), ','.join(target_columns))
-    assert not os.path.exists(save_dir)
+    if os.path.exists(save_dir):
+        shutil.rmtree(save_dir)
     arguments = [
         '--save_dir', '%s' % save_dir,
         '--data_path', '%s/data/%s.csv' % (CWD, dataset),
@@ -40,7 +42,8 @@ def test_ReadData_PureGraph_FeaturesAdd(dataset, group_reading, features_scaling
     dataset, pure_columns, target_columns, features_columns = dataset
     save_dir = '%s/data/_%s_%s_%s_%s_%s' % (CWD, dataset, ','.join(pure_columns), ','.join(target_columns),
                                             group_reading, features_scaling)
-    assert not os.path.exists(save_dir)
+    if os.path.exists(save_dir):
+        shutil.rmtree(save_dir)
     arguments = [
         '--save_dir', '%s' % save_dir,
         '--data_path', '%s/data/%s.csv' % (CWD, dataset),
@@ -76,7 +79,8 @@ def test_ReadData_PureGraph_FeaturesMol(dataset, features_generator, features_sc
     dataset, pure_columns, target_columns = dataset
     save_dir = '%s/data/_%s_%s_%s_%s_%s' % (CWD, dataset, ','.join(pure_columns), ','.join(target_columns),
                                             ','.join(features_generator), features_scaling)
-    assert not os.path.exists(save_dir)
+    if os.path.exists(save_dir):
+        shutil.rmtree(save_dir)
     arguments = [
         '--save_dir', '%s' % save_dir,
         '--data_path', '%s/data/%s.csv' % (CWD, dataset),
@@ -106,7 +110,8 @@ def test_ReadData_PureGraph_FeaturesAddMol(dataset, group_reading, features_gene
     dataset, pure_columns, target_columns, features_columns = dataset
     save_dir = '%s/data/_%s_%s_%s_%s_%s_%s' % (CWD, dataset, ','.join(pure_columns), ','.join(target_columns),
                                                group_reading, ','.join(features_generator), features_scaling)
-    assert not os.path.exists(save_dir)
+    if os.path.exists(save_dir):
+        shutil.rmtree(save_dir)
     arguments = [
         '--save_dir', '%s' % save_dir,
         '--data_path', '%s/data/%s.csv' % (CWD, dataset),
@@ -137,7 +142,8 @@ def test_ReadData_PureGraph_FeaturesAddMol(dataset, group_reading, features_gene
 def test_ReadData_MixtureGraph(dataset):
     dataset, pure_columns, target_columns = dataset
     save_dir = '%s/data/_%s_%s_%s' % (CWD, dataset, ','.join(pure_columns), ','.join(target_columns))
-    assert not os.path.exists(save_dir)
+    if os.path.exists(save_dir):
+        shutil.rmtree(save_dir)
     arguments = [
         '--save_dir', '%s' % save_dir,
         '--data_path', '%s/data/%s.csv' % (CWD, dataset),
@@ -159,7 +165,8 @@ def test_ReadData_MixtureGraph_FeaturesAdd(dataset, group_reading, features_scal
     dataset, pure_columns, target_columns, features_columns = dataset
     save_dir = '%s/data/_%s_%s_%s_%s_%s' % (CWD, dataset, ','.join(pure_columns), ','.join(target_columns),
                                             group_reading, features_scaling)
-    assert not os.path.exists(save_dir)
+    if os.path.exists(save_dir):
+        shutil.rmtree(save_dir)
     arguments = [
         '--save_dir', '%s' % save_dir,
         '--data_path', '%s/data/%s.csv' % (CWD, dataset),
@@ -195,7 +202,8 @@ def test_ReadData_MixtureGraph_FeaturesMol(dataset, features_generator, features
     dataset, pure_columns, target_columns = dataset
     save_dir = '%s/data/_%s_%s_%s_%s_%s_%s' % (CWD, dataset, ','.join(pure_columns), ','.join(target_columns),
                                                ','.join(features_generator), features_combination, features_scaling)
-    assert not os.path.exists(save_dir)
+    if os.path.exists(save_dir):
+        shutil.rmtree(save_dir)
     arguments = [
         '--save_dir', '%s' % save_dir,
         '--data_path', '%s/data/%s.csv' % (CWD, dataset),
@@ -229,7 +237,8 @@ def test_ReadData_MixtureGraph_FeaturesMolAdd(dataset, group_reading, features_g
     save_dir = '%s/data/_%s_%s_%s_%s_%s_%s_%s' % (CWD, dataset, ','.join(pure_columns), ','.join(target_columns),
                                                   group_reading, ','.join(features_generator), features_combination,
                                                   features_scaling)
-    assert not os.path.exists(save_dir)
+    if os.path.exists(save_dir):
+        shutil.rmtree(save_dir)
     arguments = [
         '--save_dir', '%s' % save_dir,
         '--data_path', '%s/data/%s.csv' % (CWD, dataset),