Refactor model evaluation implementation

oshando · oshando · commit 94c7c1ad3eee · 2022-01-12T11:13:10.000+01:00
diff --git a/swan-pipeline/src/main/java/de/fraunhofer/iem/swan/SwanPipeline.java b/swan-pipeline/src/main/java/de/fraunhofer/iem/swan/SwanPipeline.java
@@ -52,7 +52,7 @@ public void run() throws IOException, InterruptedException {
         featuresHandler.createFeatures();
 
         //Train and evaluate model for SRM and CWE categories
-        ModelEvaluator modelEvaluator = new ModelEvaluator(featuresHandler, options);
+        ModelEvaluator modelEvaluator = new ModelEvaluator(featuresHandler, options, testDataset.getMethods());
         modelEvaluator.trainModel();
 
         //TODO export final list to JSON file
diff --git a/swan-pipeline/src/main/java/de/fraunhofer/iem/swan/model/ModelEvaluator.java b/swan-pipeline/src/main/java/de/fraunhofer/iem/swan/model/ModelEvaluator.java
@@ -1,26 +1,14 @@
 package de.fraunhofer.iem.swan.model;
 
 import de.fraunhofer.iem.swan.cli.SwanOptions;
+import de.fraunhofer.iem.swan.data.Method;
 import de.fraunhofer.iem.swan.features.FeaturesHandler;
+import de.fraunhofer.iem.swan.model.engine.MLPlan;
+import de.fraunhofer.iem.swan.model.engine.Meka;
+import de.fraunhofer.iem.swan.model.engine.Weka;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
-import weka.classifiers.Classifier;
-import weka.classifiers.bayes.BayesNet;
-import weka.classifiers.bayes.NaiveBayes;
-import weka.classifiers.evaluation.output.prediction.AbstractOutput;
-import weka.classifiers.functions.Logistic;
-import weka.classifiers.functions.SMO;
-import weka.classifiers.rules.JRip;
-import weka.classifiers.trees.DecisionStump;
-import weka.classifiers.trees.J48;
-import weka.core.Instances;
-import weka.filters.Filter;
-import weka.filters.MultiFilter;
-
-import java.util.ArrayList;
-import java.util.HashMap;
-import java.util.LinkedHashMap;
-import java.util.List;
+import java.util.Set;
 
 /**
  * Finds possible sources and sinks in a given set of system methods using a
@@ -43,11 +31,13 @@ public enum Phase {
 
     private FeaturesHandler features;
     private SwanOptions options;
+    private Set<Method> methods;
     private static final Logger logger = LoggerFactory.getLogger(ModelEvaluator.class);
 
     public ModelEvaluator(FeaturesHandler features, SwanOptions options, Set<Method> methods) {
         this.features = features;
         this.options = options;
+        this.methods = methods;
     }
 
     /**
@@ -59,86 +49,21 @@ public void trainModel() {
 
         switch (Mode.valueOf(options.getLearningMode().toUpperCase())) {
 
-            case MANUAL:
-
-                //Phase 1: classify SRM classes
-                for (String srm : options.getSrmClasses())
-                    runManualEvaluation(features.getInstances().get(srm));
-
-                //Filter methods from CWE instances that were not classified
-                //into one of the SRM classes
-
-
-                //Phase 2: classify CWE classes
-                for (String cwe : options.getCweClasses())
-                    runManualEvaluation(features.getInstances().get(cwe));
-
-            case AUTOMATIC:
-                //return runAutomaticEvaluation(instances);
-        }
-        return null;
-    }
-
-    /**
-     * Run AutoML training and evaluation on instances.
-     *
-     * @param instances list of instances
-     * @return
-     */
-    public HashMap<String, HashMap<String, String>> runAutomaticEvaluation(Instances instances) {
-
-        LinkedHashMap<String, HashMap<String, String>> fMeasure = new LinkedHashMap<>();
-
-        MLPlanExecutor mlPlanExecutor = new MLPlanExecutor();
-        // fMeasure.put("ML-Plan", mlPlanExecutor.evaluateDataset(instances));
-
-        //outputFMeasure(fMeasure);
-        return fMeasure;
-    }
-
-    /**
-     * @return
-     */
-    public HashMap<String, HashMap<String, String>> runManualEvaluation(Instances instances) {
-
-        LinkedHashMap<String, HashMap<String, String>> fMeasure = new LinkedHashMap<>();
-
-        List<Classifier> classifiers = new ArrayList<>();
-        classifiers.add(new BayesNet());
-        classifiers.add(new NaiveBayes());
-        classifiers.add(new J48());
-        classifiers.add(new SMO());
-        classifiers.add(new JRip());
-        classifiers.add(new DecisionStump());
-        classifiers.add(new Logistic());
-
-        //For each classifier, evaluate its performance on the instances
-        for (Classifier classifier : classifiers) {
-
-            MonteCarloValidator evaluator = new MonteCarloValidator();
-            evaluator.monteCarloValidate(instances, classifier, options.getTrainTestSplit(), options.getIterations());
-
-            for (String key : evaluator.getFMeasure().keySet())
-                logger.info("F-measure for {} using {}: {}", key, classifier.getClass().getSimpleName(), evaluator.getFMeasure().get(key));
-        }
-        return fMeasure;
-    }
-
-    /**
-     * Applies the Weka filters to the instances.
-     *
-     * @param instances instane set
-     * @param filters   array of filters
-     * @return instances with filter applied
-     */
-    public Instances applyFilter(Instances instances, MultiFilter filters) {
-
-        try {
-            filters.setInputFormat(instances);
-            return Filter.useFilter(instances, filters);
-        } catch (Exception e) {
-            e.printStackTrace();
+            case MEKA:
+                logger.info("Evaluating model with MEKA");
+                Meka meka = new Meka(features, options, methods);
+                meka.trainModel();
+                break;
+            case WEKA:
+                logger.info("Evaluating model with WEKA");
+                Weka weka = new Weka(features, options);
+                weka.trainModel();
+                break;
+            case MLPLAN:
+                logger.info("Evaluating model with ML-PLAN");
+                MLPlan mlPlan = new MLPlan();
+                mlPlan.evaluateDataset(features.getInstances().get("train"));
+                break;
         }
-        return null;
     }
 }
diff --git a/swan-pipeline/src/main/java/de/fraunhofer/iem/swan/model/engine/MLPlan.java b/swan-pipeline/src/main/java/de/fraunhofer/iem/swan/model/engine/MLPlan.java
@@ -1,12 +1,12 @@
-package de.fraunhofer.iem.swan.model;
+package de.fraunhofer.iem.swan.model.engine;
 
 import ai.libs.jaicore.ml.classification.loss.dataset.EClassificationPerformanceMeasure;
 import ai.libs.jaicore.ml.core.dataset.schema.attribute.IntBasedCategoricalAttribute;
 import ai.libs.jaicore.ml.core.dataset.serialization.ArffDatasetAdapter;
 import ai.libs.jaicore.ml.core.filter.SplitterUtil;
 import ai.libs.jaicore.ml.weka.classification.learner.IWekaClassifier;
-import ai.libs.mlplan.core.MLPlan;
 import ai.libs.mlplan.multiclass.wekamlplan.MLPlanWekaBuilder;
+import de.fraunhofer.iem.swan.model.MonteCarloValidator;
 import de.fraunhofer.iem.swan.util.Util;
 import org.api4.java.ai.ml.core.dataset.schema.attribute.IAttribute;
 import org.api4.java.ai.ml.core.dataset.serialization.DatasetDeserializationFailedException;
@@ -33,12 +33,12 @@
 /**
  * @author Oshando Johnson on 27.09.20
  */
-public class MLPlanExecutor {
+public class MLPlan {
 
-    private static final Logger LOGGER = LoggerFactory.getLogger(MLPlanExecutor.class);
+    private static final Logger LOGGER = LoggerFactory.getLogger(MLPlan.class);
     private final int ITERATIONS = 1;
 
-    public MLPlanExecutor() {
+    public MLPlan() {
 
     }
 
@@ -94,15 +94,13 @@ public HashMap<String, ArrayList<Double>> evaluateDataset(Instances instances1)
 
                 //optimizedClassifier.fit(split.get(0));
 
-
                 String trainPath = "swan/swan_core/swan-out/mlplan/train-methods-dataset.arff";
                 ArffDatasetAdapter.serializeDataset(new File(trainPath), split.get(0));
                 ArffLoader trainLoader = new ArffLoader();
                 trainLoader.setFile(new File(trainPath));
                 Instances trainInstances = trainLoader.getDataSet();
                 trainInstances.setClassIndex(trainInstances.numAttributes() - 1);
 
-
                 String testPath = "swan/swan_core/swan-out/mlplan/test-methods-dataset.arff";
                 ArffDatasetAdapter.serializeDataset(new File(testPath), split.get(1));
                 ArffLoader testLoader = new ArffLoader();
@@ -153,7 +151,6 @@ public void evaluateDataset(Instances instances, int k) {
 
         String mClass = Util.getClassName(instances);
 
-
         long start = System.currentTimeMillis();
 
         //Initialize dataset using ARFF file path
@@ -171,12 +168,10 @@ public void evaluateDataset(Instances instances, int k) {
         //For each iteration, create a new train-test-split and run ML-Plan
         for (int iteration = 0; iteration < ITERATIONS; iteration++) {
 
-
             try {
                 List<ILabeledDataset<?>> split = SplitterUtil.getLabelStratifiedTrainTestSplit(dataset, new Random(1337 + (iteration * 11)), 0.7);
                 LOGGER.info("Data read. Time to create dataset object was {}ms", System.currentTimeMillis() - start);
 
-
                 System.out.println(split.get(1).getLabelAttribute().getName());
                 for (IAttribute attribute : split.get(1).getListOfAttributes()) {
 
@@ -194,22 +189,14 @@ public void evaluateDataset(Instances instances, int k) {
 
                     //System.out.println(dataset.getLabelVector().);
                     System.out.println(((IntBasedCategoricalAttribute) split.get(1).getAttribute(attributeIndex)).getLabelOfCategory((int) split.get(1).get(x).getAttributeValue(attributeIndex)));
-
-
                     System.out.println(((IntBasedCategoricalAttribute) split.get(1).getLabelAttribute()).getLabelOfCategory((int) split.get(1).get(x).getLabel()));
-
-
                     // System.out.println(split.get(1).getAttribute());
-
                     System.out.println(split.get(1).get(x).getAttributeValue(split.get(1).getNumAttributes() - 2) + "   " + split.get(1).get(x).getAttributeValue(split.get(1).getNumAttributes() - 1));
                 }
-
-
             } catch (SplitFailedException | InterruptedException | IOException e) {
                 e.printStackTrace();
             }
         }
-
     }
 
     /**
@@ -224,7 +211,7 @@ public Classifier getClassifier(ILabeledDataset<?> trainingSet) {
         /* initialize mlplan with a tiny search space, and let it run for 30 seconds */
 
         try {
-            MLPlan<IWekaClassifier> mlPlan = new MLPlanWekaBuilder()
+            ai.libs.mlplan.core.MLPlan<IWekaClassifier> mlPlan = new MLPlanWekaBuilder()
                     .withNumCpus(12)//Set to about 12 on the server
                     .withSeed(35467463)
                     //set default timeout
@@ -252,12 +239,11 @@ public Classifier getClassifier(ILabeledDataset<?> trainingSet) {
         return optimizedClassifier;
     }
 
-
     public static void maihn(String[] args) {
 
         String file = "swan/swan_core/src/main/resources/waveform.arff";
 
-        MLPlanExecutor mlPlan = new MLPlanExecutor();
+        MLPlan mlPlan = new MLPlan();
         //  mlPlan.evaluateDataset(file, "sdfs");
     }
 }
diff --git a/swan-pipeline/src/main/java/de/fraunhofer/iem/swan/model/engine/Weka.java b/swan-pipeline/src/main/java/de/fraunhofer/iem/swan/model/engine/Weka.java
@@ -0,0 +1,110 @@
+package de.fraunhofer.iem.swan.model.engine;
+
+import de.fraunhofer.iem.swan.cli.SwanOptions;
+import de.fraunhofer.iem.swan.features.FeaturesHandler;
+import de.fraunhofer.iem.swan.model.ModelEvaluator;
+import de.fraunhofer.iem.swan.model.MonteCarloValidator;
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
+import weka.classifiers.Classifier;
+import weka.classifiers.bayes.BayesNet;
+import weka.classifiers.bayes.NaiveBayes;
+import weka.classifiers.functions.Logistic;
+import weka.classifiers.functions.SMO;
+import weka.classifiers.rules.JRip;
+import weka.classifiers.trees.DecisionStump;
+import weka.classifiers.trees.J48;
+import weka.core.Instances;
+import weka.filters.Filter;
+import weka.filters.MultiFilter;
+
+import java.util.ArrayList;
+import java.util.HashMap;
+import java.util.LinkedHashMap;
+import java.util.List;
+
+/**
+ * Finds possible sources and sinks in a given set of system methods using a
+ * probabilistic algorithm trained on a previously annotated sample set.
+ *
+ * @author Steven Arzt, Lisa Nguyen Quang Do, Goran Piskachev
+ */
+public class Weka {
+
+    private FeaturesHandler features;
+    private SwanOptions options;
+    private static final Logger logger = LoggerFactory.getLogger(ModelEvaluator.class);
+
+    public Weka(FeaturesHandler features, SwanOptions options) {
+        this.features = features;
+        this.options = options;
+    }
+
+    /**
+     * Trains and evaluates the model with the given training data and specified classification mode.
+     *
+     * @return Hashmap containing the name of the classifier and it's F-Measure
+     */
+    public HashMap<String, HashMap<String, String>> trainModel() {
+
+
+        //Phase 1: classify SRM classes
+        for (String srm : options.getSrmClasses())
+            runManualEvaluation(features.getInstances().get(srm));
+
+        //Filter methods from CWE instances that were not classified
+        //into one of the SRM classes
+
+        //Phase 2: classify CWE classes
+        for (String cwe : options.getCweClasses())
+            runManualEvaluation(features.getInstances().get(cwe));
+
+        return null;
+    }
+
+    /**
+     * @return
+     */
+    public HashMap<String, HashMap<String, String>> runManualEvaluation(Instances instances) {
+
+        LinkedHashMap<String, HashMap<String, String>> fMeasure = new LinkedHashMap<>();
+
+        List<Classifier> classifiers = new ArrayList<>();
+        classifiers.add(new BayesNet());
+        classifiers.add(new NaiveBayes());
+        classifiers.add(new J48());
+        classifiers.add(new SMO());
+        classifiers.add(new JRip());
+        classifiers.add(new DecisionStump());
+        classifiers.add(new Logistic());
+
+        //For each classifier, evaluate its performance on the instances
+        for (Classifier classifier : classifiers) {
+
+            MonteCarloValidator evaluator = new MonteCarloValidator();
+            evaluator.monteCarloValidate(instances, classifier, options.getTrainTestSplit(), options.getIterations());
+
+            for (String key : evaluator.getFMeasure().keySet())
+                logger.info("F-measure for {} using {}: {}", key, classifier.getClass().getSimpleName(), evaluator.getFMeasure().get(key));
+        }
+        return fMeasure;
+    }
+
+    /**
+     * Applies the Weka filters to the instances.
+     *
+     * @param instances instane set
+     * @param filters   array of filters
+     * @return instances with filter applied
+     */
+    public Instances applyFilter(Instances instances, MultiFilter filters) {
+
+        try {
+            filters.setInputFormat(instances);
+            return Filter.useFilter(instances, filters);
+        } catch (Exception e) {
+            e.printStackTrace();
+        }
+        return null;
+    }
+}