Merge pull request #150 from TimmyLiu/develop_inplace_tranpose_general

bragadeesh · bragadeesh · commit 4c65788d0885 · 2016-05-27T10:00:27.000-05:00
bug fix from PR #149
diff --git a/src/library/action.transpose.cpp b/src/library/action.transpose.cpp
@@ -282,7 +282,7 @@ clfftStatus FFTGeneratedTransposeNonSquareAction::generateKernel(FFTRepo& fftRep
 		//general swap kernel takes care of all ratio
 		OPENCL_V(clfft_transpose_generator::genSwapKernelGeneral(this->signature, programCode, kernelFuncName, lwSize, reShapeFactor), _T("genSwapKernel() failed!"));
     }
-
+	//std::cout << programCode << std::endl;
     cl_int status = CL_SUCCESS;
     cl_device_id Device = NULL;
     status = clGetCommandQueueInfo(commQueueFFT, CL_QUEUE_DEVICE, sizeof(cl_device_id), &Device, NULL);
diff --git a/src/library/generator.transpose.cpp b/src/library/generator.transpose.cpp
@@ -1734,16 +1734,16 @@ clfftStatus genSwapKernelGeneral(const FFTGeneratedTransposeNonSquareAction::Sig
 						if (i + 256 < LDS_per_WG)
 						{
 							clKernWrite(transKernel, 6) << params.fft_postCallback.funcname << "(inputA - batch_offset*" << smaller_dim * bigger_dim
-								<< ", batch_offset*" << smaller_dim * bigger_dim << "+group_offSet+idx+" << i << ", post_userdata, preValue[idx+" << i
-								<< ");" << std::endl;
+								<< ", batch_offset*" << smaller_dim * bigger_dim << "+group_offset+idx+" << i << ", post_userdata, prevValue[idx+" << i
+								<< "]);" << std::endl;
 						}
 						else
 						{
 							// need to handle boundary
 							clKernWrite(transKernel, 6) << "if(idx+" << i << "<" << LDS_per_WG << "){" << std::endl;
 							clKernWrite(transKernel, 9) << params.fft_postCallback.funcname << "(inputA - batch_offset*" << smaller_dim * bigger_dim
-								<< ", batch_offset*" << smaller_dim * bigger_dim << "+group_offSet+idx+" << i << ", post_userdata, preValue[idx+" << i
-								<< ");" << std::endl;
+								<< ", batch_offset*" << smaller_dim * bigger_dim << "+group_offset+idx+" << i << ", post_userdata, prevValue[idx+" << i
+								<< "]);" << std::endl;
 							clKernWrite(transKernel, 6) << "}" << std::endl;
 						}
 					}
@@ -1848,17 +1848,17 @@ clfftStatus genSwapKernelGeneral(const FFTGeneratedTransposeNonSquareAction::Sig
 						{
 							//clKernWrite(transKernel, 6) << "inputA_R[group_offset+idx+" << i << "] = prevValue[idx+" << i << "].x;" << std::endl;
 							//clKernWrite(transKernel, 6) << "inputA_I[group_offset+idx+" << i << "] = prevValue[idx+" << i << "].y;" << std::endl;
-							clKernWrite(transKernel, 6) << params.fft_postCallback.funcname << "inputA_R - batch_offset*" << smaller_dim * bigger_dim
+							clKernWrite(transKernel, 6) << params.fft_postCallback.funcname << "(inputA_R - batch_offset*" << smaller_dim * bigger_dim
 								<< ", inputA_I - batch_offset*" << smaller_dim * bigger_dim << ", batch_offset*" << smaller_dim * bigger_dim
-								<< "+group_offset+idx+" << i << ", post_userdata, preValue[idx+" << i << "].x, prevValue[idx+" << i << "].y);" << std::endl;
+								<< "+group_offset+idx+" << i << ", post_userdata, prevValue[idx+" << i << "].x, prevValue[idx+" << i << "].y);" << std::endl;
 						}
 						else
 						{
 							// need to handle boundary
 							clKernWrite(transKernel, 6) << "if(idx+" << i << "<" << LDS_per_WG << "){" << std::endl;
-							clKernWrite(transKernel, 6) << params.fft_postCallback.funcname << "inputA_R - batch_offset*" << smaller_dim * bigger_dim
+							clKernWrite(transKernel, 6) << params.fft_postCallback.funcname << "(inputA_R - batch_offset*" << smaller_dim * bigger_dim
 								<< ", inputA_I - batch_offset*" << smaller_dim * bigger_dim << ", batch_offset*" << smaller_dim * bigger_dim
-								<< "+group_offset+idx+" << i << ", post_userdata, preValue[idx+" << i << "].x, prevValue[idx+" << i << "].y);" << std::endl;
+								<< "+group_offset+idx+" << i << ", post_userdata, prevValue[idx+" << i << "].x, prevValue[idx+" << i << "].y);" << std::endl;
 							clKernWrite(transKernel, 6) << "}" << std::endl;
 						}
 					}
diff --git a/src/library/plan.cpp b/src/library/plan.cpp
@@ -66,17 +66,14 @@ static bool pow235(size_t num, size_t &pow2, size_t &pow3, size_t &pow5)
 	return true;
 }
 
-static bool split1D_for_inplace(size_t num, vector<vector<size_t> > &splitNums, clfftPrecision precision)
+static bool split1D_for_inplace(size_t num, vector<vector<size_t> > &splitNums, clfftPrecision precision, size_t threshold)
 {
 	/* a helper function to split big 1D to friendly 2D sizes for inplace transpose kernels
 	   currently only radix 2, 3 and 5 are supported
 	   the algorithm looks for ways to split up the 1D into 2D such that one of the dimensions is multiples of the other dimension.
 	   And this mupliple is radix2, 3 or 5.
 	   each splited dimentsion should be further splited until that it is smaller than 4096
 	*/
-	size_t threshold = 4096;
-	if (precision == CLFFT_DOUBLE)
-		threshold = 2048;
 	if (num <= threshold)
 		return true;
 	if (num % 2 != 0 && num % 3 != 0 && num % 5 != 0)
@@ -174,8 +171,8 @@ static bool split1D_for_inplace(size_t num, vector<vector<size_t> > &splitNums,
 	splitVec.push_back(temp);
 	splitNums.push_back(splitVec);
 
-	status = status && split1D_for_inplace(temp*divide_factor, splitNums, precision);
-	status = status && split1D_for_inplace(temp, splitNums, precision);
+	status = status && split1D_for_inplace(temp*divide_factor, splitNums, precision, threshold);
+	status = status && split1D_for_inplace(temp, splitNums, precision, threshold);
 	return status;
 
 }
@@ -794,13 +791,17 @@ clfftStatus	clfftBakePlan( clfftPlanHandle plHandle, cl_uint numQueues, cl_comma
 				if (fftPlan->length[0] == 354294)
 					clLengths[1] = 243;
 				*/
+				size_t threshold = 4096;
+				if (fftPlan->precision == CLFFT_DOUBLE)
+					threshold = 2048;
 				if (clfftGetRequestLibNoMemAlloc() &&
 					fftPlan->placeness == CLFFT_INPLACE &&
-					(fftPlan->inputLayout == fftPlan->outputLayout) )
+					(fftPlan->inputLayout == fftPlan->outputLayout)
+					&& fftPlan->length[0] > threshold)
 				{
 					//for inplace fft with inplace transpose, the split logic is different
 					vector<vector<size_t> > splitNums;
-					bool implemented = split1D_for_inplace(fftPlan->length[0], splitNums, fftPlan->precision);
+					bool implemented = split1D_for_inplace(fftPlan->length[0], splitNums, fftPlan->precision, threshold);
 					if (implemented)
 						clLengths[1] = splitNums[0][0];
 				}

Original file line number	Diff line number	Diff line change
`@@ -282,7 +282,7 @@ clfftStatus FFTGeneratedTransposeNonSquareAction::generateKernel(FFTRepo& fftRep`
`282`	`282`	`//general swap kernel takes care of all ratio`
`283`	`283`	`OPENCL_V(clfft_transpose_generator::genSwapKernelGeneral(this->signature, programCode, kernelFuncName, lwSize, reShapeFactor), _T("genSwapKernel() failed!"));`
`284`	`284`	`}`
`285`		`-`
	`285`	`+ //std::cout << programCode << std::endl;`
`286`	`286`	`cl_int status = CL_SUCCESS;`
`287`	`287`	`cl_device_id Device = NULL;`
`288`	`288`	`status = clGetCommandQueueInfo(commQueueFFT, CL_QUEUE_DEVICE, sizeof(cl_device_id), &Device, NULL);`
Original file line number	Diff line number	Diff line change
`@@ -1734,16 +1734,16 @@ clfftStatus genSwapKernelGeneral(const FFTGeneratedTransposeNonSquareAction::Sig`
`1734`	`1734`	`if (i + 256 < LDS_per_WG)`
`1735`	`1735`	`{`
`1736`	`1736`	`clKernWrite(transKernel, 6) << params.fft_postCallback.funcname << "(inputA - batch_offset" << smaller_dim bigger_dim`
`1737`		`- << ", batch_offset" << smaller_dim bigger_dim << "+group_offSet+idx+" << i << ", post_userdata, preValue[idx+" << i`
`1738`		`- << ");" << std::endl;`
	`1737`	`+ << ", batch_offset" << smaller_dim bigger_dim << "+group_offset+idx+" << i << ", post_userdata, prevValue[idx+" << i`
	`1738`	`+ << "]);" << std::endl;`
`1739`	`1739`	`}`
`1740`	`1740`	`else`
`1741`	`1741`	`{`
`1742`	`1742`	`// need to handle boundary`
`1743`	`1743`	`clKernWrite(transKernel, 6) << "if(idx+" << i << "<" << LDS_per_WG << "){" << std::endl;`
`1744`	`1744`	`clKernWrite(transKernel, 9) << params.fft_postCallback.funcname << "(inputA - batch_offset" << smaller_dim bigger_dim`
`1745`		`- << ", batch_offset" << smaller_dim bigger_dim << "+group_offSet+idx+" << i << ", post_userdata, preValue[idx+" << i`
`1746`		`- << ");" << std::endl;`
	`1745`	`+ << ", batch_offset" << smaller_dim bigger_dim << "+group_offset+idx+" << i << ", post_userdata, prevValue[idx+" << i`
	`1746`	`+ << "]);" << std::endl;`
`1747`	`1747`	`clKernWrite(transKernel, 6) << "}" << std::endl;`
`1748`	`1748`	`}`
`1749`	`1749`	`}`
`@@ -1848,17 +1848,17 @@ clfftStatus genSwapKernelGeneral(const FFTGeneratedTransposeNonSquareAction::Sig`
`1848`	`1848`	`{`
`1849`	`1849`	`//clKernWrite(transKernel, 6) << "inputA_R[group_offset+idx+" << i << "] = prevValue[idx+" << i << "].x;" << std::endl;`
`1850`	`1850`	`//clKernWrite(transKernel, 6) << "inputA_I[group_offset+idx+" << i << "] = prevValue[idx+" << i << "].y;" << std::endl;`
`1851`		`- clKernWrite(transKernel, 6) << params.fft_postCallback.funcname << "inputA_R - batch_offset" << smaller_dim bigger_dim`
	`1851`	`+ clKernWrite(transKernel, 6) << params.fft_postCallback.funcname << "(inputA_R - batch_offset" << smaller_dim bigger_dim`
`1852`	`1852`	`<< ", inputA_I - batch_offset" << smaller_dim bigger_dim << ", batch_offset" << smaller_dim bigger_dim`
`1853`		`- << "+group_offset+idx+" << i << ", post_userdata, preValue[idx+" << i << "].x, prevValue[idx+" << i << "].y);" << std::endl;`
	`1853`	`+ << "+group_offset+idx+" << i << ", post_userdata, prevValue[idx+" << i << "].x, prevValue[idx+" << i << "].y);" << std::endl;`
`1854`	`1854`	`}`
`1855`	`1855`	`else`
`1856`	`1856`	`{`
`1857`	`1857`	`// need to handle boundary`
`1858`	`1858`	`clKernWrite(transKernel, 6) << "if(idx+" << i << "<" << LDS_per_WG << "){" << std::endl;`
`1859`		`- clKernWrite(transKernel, 6) << params.fft_postCallback.funcname << "inputA_R - batch_offset" << smaller_dim bigger_dim`
	`1859`	`+ clKernWrite(transKernel, 6) << params.fft_postCallback.funcname << "(inputA_R - batch_offset" << smaller_dim bigger_dim`
`1860`	`1860`	`<< ", inputA_I - batch_offset" << smaller_dim bigger_dim << ", batch_offset" << smaller_dim bigger_dim`
`1861`		`- << "+group_offset+idx+" << i << ", post_userdata, preValue[idx+" << i << "].x, prevValue[idx+" << i << "].y);" << std::endl;`
	`1861`	`+ << "+group_offset+idx+" << i << ", post_userdata, prevValue[idx+" << i << "].x, prevValue[idx+" << i << "].y);" << std::endl;`
`1862`	`1862`	`clKernWrite(transKernel, 6) << "}" << std::endl;`
`1863`	`1863`	`}`
`1864`	`1864`	`}`