CDAP-14107 fix bug with RDD functions

albertshau · vravish · commit 89ec2cb6a00c · 2020-04-07T17:52:09.000-07:00
Fixing a bug that was introduced during refactoring for the scala
spark sink where RDD functions were not being handled correctly.
In compute plugins, we were assuming the return value was a
DataFrame, and would end up calling .toJavaRDD() on a JavaRDD.
In sink plugins, we were assuming the return value was an RDD
instead of Unit, which would result in a null pointer exception.

Added correctly handling so that we only try to convert a DataFrame
to an RDD if it is actually a DataFrame, and we don't try to treat
a null as an RDD.
diff --git a/src/main/java/io/cdap/plugin/spark/dynamic/ScalaSparkCodeExecutor.java b/src/main/java/io/cdap/plugin/spark/dynamic/ScalaSparkCodeExecutor.java
@@ -165,6 +165,10 @@ public void onEvent(SparkListenerEvent event) {
     }
   }
 
+  public boolean isDataFrame() {
+    return isDataFrame;
+  }
+
   /**
    * Execute interpreted code on the given RDD.
    */
@@ -177,10 +181,10 @@ public Object execute(SparkExecutionPluginContext context,
       if (!isDataFrame) {
         if (takeContext) {
           //noinspection unchecked
-          return ((RDD<StructuredRecord>) method.invoke(null, javaRDD.rdd(), context)).toJavaRDD();
+          return method.invoke(null, javaRDD.rdd(), context);
         } else {
           //noinspection unchecked
-          return ((RDD<StructuredRecord>) method.invoke(null, javaRDD.rdd())).toJavaRDD();
+          return method.invoke(null, javaRDD.rdd());
         }
       }
 
diff --git a/src/main/java/io/cdap/plugin/spark/dynamic/ScalaSparkCompute.java b/src/main/java/io/cdap/plugin/spark/dynamic/ScalaSparkCompute.java
@@ -30,6 +30,7 @@
 import io.cdap.cdap.etl.api.batch.SparkExecutionPluginContext;
 import org.apache.spark.api.java.JavaRDD;
 import org.apache.spark.api.java.function.Function;
+import org.apache.spark.rdd.RDD;
 import org.apache.spark.sql.Row;
 import org.apache.spark.sql.types.DataType;
 
@@ -48,6 +49,7 @@ public class ScalaSparkCompute extends SparkCompute<StructuredRecord, Structured
   // A strong reference is needed to keep the compiled classes around
   @SuppressWarnings("FieldCanBeLocal")
   private transient ScalaSparkCodeExecutor codeExecutor;
+  private transient boolean isRDD;
 
   public ScalaSparkCompute(Config config) {
     this.config = config;
@@ -77,13 +79,19 @@ public void configurePipeline(PipelineConfigurer pipelineConfigurer) throws Ille
   public void initialize(SparkExecutionPluginContext context) throws Exception {
     codeExecutor = new ScalaSparkCodeExecutor(config.getScalaCode(), config.getDependencies(), "transform", false);
     codeExecutor.initialize(context);
+    isRDD = !codeExecutor.isDataFrame();
   }
 
   @Override
   public JavaRDD<StructuredRecord> transform(SparkExecutionPluginContext context,
                                              JavaRDD<StructuredRecord> javaRDD) throws Exception {
     Object result = codeExecutor.execute(context, javaRDD);
 
+    if (isRDD) {
+      //noinspection unchecked
+      return ((RDD<StructuredRecord>) result).toJavaRDD();
+    }
+
     // Convert the DataFrame back to RDD<StructureRecord>
     Schema outputSchema = context.getOutputSchema();
     if (outputSchema == null) {
@@ -176,7 +184,7 @@ public RowToRecord(Schema schema) {
     }
 
     @Override
-    public StructuredRecord call(Row row) throws Exception {
+    public StructuredRecord call(Row row) {
       return DataFrames.fromRow(row, schema);
     }
   }
diff --git a/src/test/java/io/cdap/plugin/spark/dynamic/ScalaSparkTest.java b/src/test/java/io/cdap/plugin/spark/dynamic/ScalaSparkTest.java
@@ -72,6 +72,7 @@
 import java.util.List;
 import java.util.Map;
 import java.util.Set;
+import java.util.UUID;
 import java.util.concurrent.TimeUnit;
 
 /**
@@ -269,7 +270,40 @@ public void testScalaSparkProgramClosure() throws Exception {
   }
 
   @Test
-  public void testScalaSparkCompute() throws Exception {
+  public void testScalaSparkComputeDataFrame() throws Exception {
+    StringWriter codeWriter = new StringWriter();
+    try (PrintWriter printer = new PrintWriter(codeWriter, true)) {
+      printer.println("def transform(df: DataFrame) : DataFrame = {");
+      printer.println("  val splitted = df.explode(\"body\", \"word\") { ");
+      printer.println("    line: String => line.split(\"\\\\s+\")");
+      printer.println("  }");
+      printer.println("  splitted.registerTempTable(\"splitted\")");
+      printer.println("  splitted.sqlContext.sql(\"SELECT word, count(*) as count FROM splitted GROUP BY word\")");
+      printer.println("}");
+    }
+
+    testWordCountCompute(codeWriter.toString());
+  }
+
+  @Test
+  public void testScalaSparkComputeRDD() throws Exception {
+    StringWriter codeWriter = new StringWriter();
+    try (PrintWriter printer = new PrintWriter(codeWriter, true)) {
+      printer.println(
+        "def transform(rdd: RDD[StructuredRecord], context:SparkExecutionPluginContext) : RDD[StructuredRecord] = {");
+      printer.println("  val schema = context.getOutputSchema");
+      printer.println("  rdd");
+      printer.println("    .flatMap(_.get[String](\"body\").split(\"\\\\s+\"))");
+      printer.println("    .map(s => (s, 1L))");
+      printer.println("    .reduceByKey(_ + _)");
+      printer.println("    .map(t => StructuredRecord.builder(schema).set(\"word\", t._1).set(\"count\", t._2).build)");
+      printer.println("}");
+    }
+
+    testWordCountCompute(codeWriter.toString());
+  }
+
+  private void testWordCountCompute(String code) throws Exception {
     Schema inputSchema = Schema.recordOf(
       "input",
       Schema.Field.of("body", Schema.nullableOf(Schema.of(Schema.Type.STRING)))
@@ -281,25 +315,17 @@ public void testScalaSparkCompute() throws Exception {
       Schema.Field.of("count", Schema.nullableOf(Schema.of(Schema.Type.LONG)))
     );
 
-    StringWriter codeWriter = new StringWriter();
-    try (PrintWriter printer = new PrintWriter(codeWriter, true)) {
-      printer.println("def transform(df: DataFrame) : DataFrame = {");
-      printer.println("  val splitted = df.explode(\"body\", \"word\") { ");
-      printer.println("    line: String => line.split(\"\\\\s+\")");
-      printer.println("  }");
-      printer.println("  splitted.registerTempTable(\"splitted\")");
-      printer.println("  splitted.sqlContext.sql(\"SELECT word, count(*) as count FROM splitted GROUP BY word\")");
-      printer.println("}");
-    }
+    String inputTable = UUID.randomUUID().toString();
+    String outputTable = UUID.randomUUID().toString();
 
     // Pipeline configuration
     ETLBatchConfig etlConfig = ETLBatchConfig.builder("* * * * *")
-      .addStage(new ETLStage("source", MockSource.getPlugin("singleInput", inputSchema)))
+      .addStage(new ETLStage("source", MockSource.getPlugin(inputTable, inputSchema)))
       .addStage(new ETLStage("compute", new ETLPlugin("ScalaSparkCompute", SparkCompute.PLUGIN_TYPE, ImmutableMap.of(
-        "scalaCode", codeWriter.toString(),
+        "scalaCode", code,
         "schema", computeSchema.toString()
       ))))
-      .addStage(new ETLStage("sink", MockSink.getPlugin("singleOutput")))
+      .addStage(new ETLStage("sink", MockSink.getPlugin(outputTable)))
       .addConnection("source", "compute")
       .addConnection("compute", "sink")
       .build();
@@ -308,11 +334,11 @@ public void testScalaSparkCompute() throws Exception {
     ArtifactSummary artifactSummary = new ArtifactSummary(DATAPIPELINE_ARTIFACT_ID.getArtifact(),
                                                           DATAPIPELINE_ARTIFACT_ID.getVersion());
     AppRequest<ETLBatchConfig> appRequest = new AppRequest<>(artifactSummary, etlConfig);
-    ApplicationId appId = NamespaceId.DEFAULT.app("ScalaSparkComputeApp");
+    ApplicationId appId = NamespaceId.DEFAULT.app(UUID.randomUUID().toString());
     ApplicationManager appManager = deployApplication(appId, appRequest);
 
     // write records to source
-    DataSetManager<Table> inputManager = getDataset(NamespaceId.DEFAULT.dataset("singleInput"));
+    DataSetManager<Table> inputManager = getDataset(NamespaceId.DEFAULT.dataset(inputTable));
     List<StructuredRecord> inputRecords = new ArrayList<>();
     for (int i = 0; i < 10; i++) {
       inputRecords.add(StructuredRecord.builder(inputSchema).set("body", "Line " + i).build());
@@ -326,7 +352,7 @@ public void testScalaSparkCompute() throws Exception {
 
     // Verify result written to sink.
     // It has two fields, word and count.
-    DataSetManager<Table> sinkManager = getDataset("singleOutput");
+    DataSetManager<Table> sinkManager = getDataset(outputTable);
     Map<String, StructuredRecord> wordCounts =
       Maps.uniqueIndex(Sets.newHashSet(MockSink.readOutput(sinkManager)), new Function<StructuredRecord, String>() {
         @Override
@@ -343,13 +369,28 @@ public String apply(StructuredRecord record) {
   }
 
   @Test
-  public void testScalaSparkSink() throws Exception {
-    Schema inputSchema = Schema.recordOf(
-      "input",
-      Schema.Field.of("body", Schema.nullableOf(Schema.of(Schema.Type.STRING)))
-    );
+  public void testScalaSparkSinkRDD() throws Exception {
+    File testFolder = TEMP_FOLDER.newFolder("scalaSinkRDDOutput");
+    File outputFolder = new File(testFolder, "output");
+    StringWriter codeWriter = new StringWriter();
+    try (PrintWriter printer = new PrintWriter(codeWriter, true)) {
+      printer.println(
+        "def sink(rdd: RDD[StructuredRecord], context:SparkExecutionPluginContext) : Unit = {");
+      printer.println("  val schema = context.getOutputSchema");
+      printer.println("  rdd");
+      printer.println("    .flatMap(_.get[String](\"body\").split(\"\\\\s+\"))");
+      printer.println("    .map(s => (s, 1L))");
+      printer.println("    .reduceByKey(_ + _)");
+      printer.println("    .map(t => t._1 + \" \" + t._2)");
+      printer.println("    .saveAsTextFile(\"" + outputFolder.getAbsolutePath() + "\")");
+      printer.println("}");
+    }
+    testWordCountSink(codeWriter.toString(), outputFolder);
+  }
 
-    File testFolder = TEMP_FOLDER.newFolder("scalaSinkOutput");
+  @Test
+  public void testScalaSparkSinkDataFrame() throws Exception {
+    File testFolder = TEMP_FOLDER.newFolder("scalaSinkDataframeOutput");
     File outputFolder = new File(testFolder, "output");
     StringWriter codeWriter = new StringWriter();
     try (PrintWriter printer = new PrintWriter(codeWriter, true)) {
@@ -363,24 +404,34 @@ public void testScalaSparkSink() throws Exception {
       printer.println("  out.write.format(\"text\").save(\"" + outputFolder.getAbsolutePath() + "\")");
       printer.println("}");
     }
+    testWordCountSink(codeWriter.toString(), outputFolder);
+  }
+
+  private void testWordCountSink(String code, File outputFolder) throws Exception {
+    Schema inputSchema = Schema.recordOf(
+      "input",
+      Schema.Field.of("body", Schema.nullableOf(Schema.of(Schema.Type.STRING)))
+    );
+
+    String inputTable = UUID.randomUUID().toString();
 
     // Pipeline configuration
     ETLBatchConfig etlConfig = ETLBatchConfig.builder("* * * * *")
-      .addStage(new ETLStage("source", MockSource.getPlugin("sinkInput", inputSchema)))
+      .addStage(new ETLStage("source", MockSource.getPlugin(inputTable, inputSchema)))
       .addStage(new ETLStage("sink", new ETLPlugin("ScalaSparkSink", SparkSink.PLUGIN_TYPE,
-                                                   ImmutableMap.of("scalaCode", codeWriter.toString()))))
+                                                   ImmutableMap.of("scalaCode", code))))
       .addConnection("source", "sink")
       .build();
 
     // Deploy the pipeline
     ArtifactSummary artifactSummary = new ArtifactSummary(DATAPIPELINE_ARTIFACT_ID.getArtifact(),
                                                           DATAPIPELINE_ARTIFACT_ID.getVersion());
     AppRequest<ETLBatchConfig> appRequest = new AppRequest<>(artifactSummary, etlConfig);
-    ApplicationId appId = NamespaceId.DEFAULT.app("ScalaSparkSinkApp");
+    ApplicationId appId = NamespaceId.DEFAULT.app(UUID.randomUUID().toString());
     ApplicationManager appManager = deployApplication(appId, appRequest);
 
     // write records to source
-    DataSetManager<Table> inputManager = getDataset(NamespaceId.DEFAULT.dataset("sinkInput"));
+    DataSetManager<Table> inputManager = getDataset(NamespaceId.DEFAULT.dataset(inputTable));
     List<StructuredRecord> inputRecords = new ArrayList<>();
     for (int i = 0; i < 10; i++) {
       inputRecords.add(StructuredRecord.builder(inputSchema).set("body", "Line " + i).build());

Original file line number	Diff line number	Diff line change
`@@ -165,6 +165,10 @@ public void onEvent(SparkListenerEvent event) {`
`165`	`165`	`}`
`166`	`166`	`}`
`167`	`167`
	`168`	`+ public boolean isDataFrame() {`
	`169`	`+ return isDataFrame;`
	`170`	`+ }`
	`171`	`+`
`168`	`172`	`/**`
`169`	`173`	`* Execute interpreted code on the given RDD.`
`170`	`174`	`*/`
`@@ -177,10 +181,10 @@ public Object execute(SparkExecutionPluginContext context,`
`177`	`181`	`if (!isDataFrame) {`
`178`	`182`	`if (takeContext) {`
`179`	`183`	`//noinspection unchecked`
`180`		`- return ((RDD<StructuredRecord>) method.invoke(null, javaRDD.rdd(), context)).toJavaRDD();`
	`184`	`+ return method.invoke(null, javaRDD.rdd(), context);`
`181`	`185`	`} else {`
`182`	`186`	`//noinspection unchecked`
`183`		`- return ((RDD<StructuredRecord>) method.invoke(null, javaRDD.rdd())).toJavaRDD();`
	`187`	`+ return method.invoke(null, javaRDD.rdd());`
`184`	`188`	`}`
`185`	`189`	`}`
`186`	`190`