Move code for Monte Carlo validation to new class

oshando · oshando · commit 99d23eb37794 · 2021-12-14T12:21:07.000+01:00
diff --git a/swan-pipeline/src/main/java/de/fraunhofer/iem/swan/model/MLPlanExecutor.java b/swan-pipeline/src/main/java/de/fraunhofer/iem/swan/model/MLPlanExecutor.java
@@ -1,39 +1,33 @@
 package de.fraunhofer.iem.swan.model;
 
 import ai.libs.jaicore.ml.classification.loss.dataset.EClassificationPerformanceMeasure;
-import ai.libs.jaicore.ml.classification.singlelabel.SingleLabelClassification;
 import ai.libs.jaicore.ml.core.dataset.schema.attribute.IntBasedCategoricalAttribute;
 import ai.libs.jaicore.ml.core.dataset.serialization.ArffDatasetAdapter;
-import ai.libs.jaicore.ml.core.evaluation.evaluator.SupervisedLearnerExecutor;
 import ai.libs.jaicore.ml.core.filter.SplitterUtil;
 import ai.libs.jaicore.ml.weka.classification.learner.IWekaClassifier;
 import ai.libs.mlplan.core.MLPlan;
 import ai.libs.mlplan.multiclass.wekamlplan.MLPlanWekaBuilder;
-import de.fraunhofer.iem.swan.features.InstancesHandler;
 import de.fraunhofer.iem.swan.util.Util;
-import org.api4.java.ai.ml.classification.singlelabel.evaluation.ISingleLabelClassification;
 import org.api4.java.ai.ml.core.dataset.schema.attribute.IAttribute;
 import org.api4.java.ai.ml.core.dataset.serialization.DatasetDeserializationFailedException;
 import org.api4.java.ai.ml.core.dataset.splitter.SplitFailedException;
 import org.api4.java.ai.ml.core.dataset.supervised.ILabeledDataset;
-import org.api4.java.ai.ml.core.evaluation.execution.ILearnerRunReport;
-import org.api4.java.ai.ml.core.evaluation.execution.LearnerExecutionFailedException;
-import org.api4.java.ai.ml.core.exception.TrainingException;
 import org.api4.java.algorithm.Timeout;
 import org.api4.java.algorithm.exceptions.AlgorithmException;
 import org.api4.java.algorithm.exceptions.AlgorithmExecutionCanceledException;
 import org.api4.java.algorithm.exceptions.AlgorithmTimeoutedException;
-import org.nd4j.common.io.StringUtils;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 import weka.classifiers.Classifier;
-import weka.core.Attribute;
 import weka.core.Instances;
 import weka.core.converters.ArffLoader;
 
 import java.io.File;
 import java.io.IOException;
-import java.util.*;
+import java.util.ArrayList;
+import java.util.HashMap;
+import java.util.List;
+import java.util.Random;
 import java.util.concurrent.TimeUnit;
 
 /**
@@ -51,13 +45,13 @@ public MLPlanExecutor() {
     /**
      * Run ML-Plan using the provided path to the ARFF file.
      *
-     * @param instancesHandler file path for ARFF file
+     * @param instances1 file path for ARFF file
      */
-    public HashMap<String, String> evaluateDataset(InstancesHandler instancesHandler) {
+    public HashMap<String, String> evaluateDataset(Instances instances1) {
 
-        String arffFilePath = Util.exportInstancesToArff(instancesHandler.getInstances());
+        String arffFilePath = Util.exportInstancesToArff(instances1);
 
-        String mClass = Util.getClassName(instancesHandler.getInstances());
+        String mClass = Util.getClassName(instances1);
 
         long start = System.currentTimeMillis();
 
@@ -74,14 +68,14 @@ public HashMap<String, String> evaluateDataset(InstancesHandler instancesHandler
         ArrayList<Double> fScores = new ArrayList<>();
         ArrayList<String> algorithms = new ArrayList<>();
 
-        ModelEvaluator modelEvaluator = new ModelEvaluator();
+        MonteCarloValidator monteCarloValidator = new MonteCarloValidator();
 
         ArffLoader loader = new ArffLoader();
         try {
             loader.setFile(new File(arffFilePath));
             Instances instances = loader.getDataSet();
             instances.setClassIndex(instances.numAttributes() - 1);
-            modelEvaluator.initializeResultSet(instances);
+            monteCarloValidator.initializeResultSet(instances);
         } catch (IOException e) {
             e.printStackTrace();
         }
@@ -116,7 +110,7 @@ public HashMap<String, String> evaluateDataset(InstancesHandler instancesHandler
                 Instances testInstances = testLoader.getDataSet();
                 testInstances.setClassIndex(testInstances.numAttributes() - 1);
 
-                modelEvaluator.evaluate(optimizedClassifier, trainInstances, testInstances, iteration);
+                monteCarloValidator.evaluate(optimizedClassifier, trainInstances, testInstances, iteration);
 
 
                 /* evaluate solution produced by mlplan */
@@ -149,15 +143,15 @@ public HashMap<String, String> evaluateDataset(InstancesHandler instancesHandler
                 e.printStackTrace();
             }
         }
-        return modelEvaluator.getFMeasure();
+        return monteCarloValidator.getFMeasure();
     }
 
-    public void evaluateDataset(InstancesHandler instancesHandler, int k) {
+    public void evaluateDataset(Instances instances, int k) {
 
         //arffFilePath = "swan/swan_core/src/main/resources/waveform.arff";
-        String arffFilePath = Util.exportInstancesToArff(instancesHandler.getInstances());
+        String arffFilePath = Util.exportInstancesToArff(instances);
 
-        String mClass = Util.getClassName(instancesHandler.getInstances());
+        String mClass = Util.getClassName(instances);
 
 
         long start = System.currentTimeMillis();
@@ -172,7 +166,7 @@ public void evaluateDataset(InstancesHandler instancesHandler, int k) {
 
         //dataset.removeColumn("id");
 
-        ModelEvaluator modelEvaluator = new ModelEvaluator();
+        MonteCarloValidator monteCarloValidator = new MonteCarloValidator();
 
         //For each iteration, create a new train-test-split and run ML-Plan
         for (int iteration = 0; iteration < ITERATIONS; iteration++) {
diff --git a/swan-pipeline/src/main/java/de/fraunhofer/iem/swan/model/MonteCarloValidator.java b/swan-pipeline/src/main/java/de/fraunhofer/iem/swan/model/MonteCarloValidator.java
@@ -0,0 +1,138 @@
+package de.fraunhofer.iem.swan.model;
+
+import de.fraunhofer.iem.swan.util.Util;
+import weka.classifiers.Classifier;
+import weka.classifiers.Evaluation;
+import weka.classifiers.evaluation.output.prediction.AbstractOutput;
+import weka.classifiers.evaluation.output.prediction.CSV;
+import weka.core.Instances;
+
+import java.util.ArrayList;
+import java.util.HashMap;
+import java.util.Random;
+
+/**
+ * @author Oshando Johnson on 02.09.20
+ */
+public class MonteCarloValidator {
+
+    private ArrayList<AbstractOutput> predictions;
+    private HashMap<String, String> fMeasure;
+
+    public MonteCarloValidator() {
+        predictions = new ArrayList<>();
+    }
+
+    public ArrayList<AbstractOutput> getPredictions() {
+        return predictions;
+    }
+
+    public HashMap<String, String> getFMeasure() {
+        return fMeasure;
+    }
+
+    /**
+     * Evaluates instances using Monte Carlo Cross Evaluation.
+     *
+     * @param instances       instance set
+     * @param classifier      classifier to model creation
+     * @param trainPercentage percentage of instances for train set
+     * @param iterations      number of evaluation iterations
+     * @return average F-score for iterations
+     */
+    public HashMap<String, String> monteCarloValidate(Instances instances, Classifier classifier, double trainPercentage, int iterations) {
+
+        initializeResultSet(instances);
+
+        for (int i = 0; i < iterations; i++) {
+            Util.exportInstancesToArff(instances);
+            evaluateIteration(instances, classifier, trainPercentage, i);
+        }
+        return fMeasure;
+    }
+
+    public void evaluateIteration(Instances instances, Classifier classifier, double trainPercentage, int iteration) {
+
+        int trainSize = (int) Math.round(instances.numInstances() * trainPercentage);
+        int testSize = instances.numInstances() - trainSize;
+
+        instances.randomize(new Random(1337 + iteration * 11));
+        instances.stratify(10);
+
+        Instances trainInstances = new Instances(instances, 0, trainSize);
+        Instances testInstances = new Instances(instances, trainSize, testSize);
+
+        evaluate(classifier, trainInstances, testInstances, iteration);
+    }
+
+    public void evaluate(Classifier classifier, Instances trainInstances, Instances testInstances, int iteration) {
+
+        Evaluation eval = null;
+        try {
+
+            classifier.buildClassifier(trainInstances);
+
+            eval = new Evaluation(testInstances);
+
+            AbstractOutput abstractOutput = new CSV();
+            abstractOutput.setBuffer(new StringBuffer());
+            abstractOutput.setHeader(testInstances);
+            abstractOutput.setAttributes(Integer.toString(testInstances.numAttributes() - 1));
+
+            eval.evaluateModel(classifier, testInstances, abstractOutput);
+
+            String[] predictions = abstractOutput.getBuffer().toString().split("\n");
+
+            for (String result : predictions) {
+                String[] entry = result.split(",");
+
+                if (entry[2].contains("source") || entry[2].contains("sink") || entry[2].contains("sanitizer")
+                        || entry[2].contains("auth")) {
+
+                    String method = entry[5].replace("'", "");
+
+                    // System.out.println(method);
+                    // SwanPipeline.predictions.get(Integer.toString(iteration)).add(method);
+                }
+            }
+
+            //get class name
+            String className = "";
+            for (int x = 0; x < testInstances.attribute("class").numValues(); x++) {
+
+                if (!testInstances.attribute("class").value(x).contains("none")) {
+                    className = testInstances.attribute("class").value(x);
+                    break;
+                }
+            }
+        } catch (Exception e) {
+            e.printStackTrace();
+        }
+        updateResultSet(testInstances, eval);
+    }
+
+    public void initializeResultSet(Instances instances) {
+        fMeasure = new HashMap<>();
+
+        for (int x = 0; x < instances.numClasses(); x++) {
+
+            if (!instances.classAttribute().value(x).contentEquals("none")) {
+                fMeasure.put(instances.classAttribute().value(x), "");
+            }
+        }
+    }
+
+    public void updateResultSet(Instances instances, Evaluation eval) {
+
+        for (int x = 0; x < instances.numClasses(); x++) {
+
+            if (!instances.classAttribute().value(x).contentEquals("none")) {
+
+                String current = fMeasure.get(instances.classAttribute().value(x));
+                current += eval.fMeasure(x) + ";";
+
+                fMeasure.replace(instances.classAttribute().value(x), current.replace("NaN", "0"));
+            }
+        }
+    }
+}