code refactoring + added argument parser

Ricardicus · Ricardicus · commit 11a067c3c9f3 · 2019-02-14T09:12:00.000+01:00
diff --git a/lstm.c b/lstm.c
@@ -1212,37 +1212,39 @@ void lstm_model_regularization(lstm_model_t* model, lstm_model_t* gradients)
 	vectors_add_scalar_multiply(gradients->bf, model->bf, model->N, lambda);
 }
 
-//						model, number of training points, X_train, Y_train, number of iterations
-void lstm_train(lstm_model_t* model, lstm_model_t** model_layers, set_T* char_index_mapping, unsigned int training_points, int* X_train, int* Y_train, unsigned long iterations, int layers)
+//						model, number of training points, X_train, Y_train
+void lstm_train(lstm_model_t** model_layers, lstm_model_parameters_t *params, set_T* char_index_mapping, unsigned int training_points, int* X_train, int* Y_train, int layers)
 {
 	int N,F,S, status = 0, p = 0;
 	unsigned int i = 0, b = 0, q = 0, e1 = 0, e2 = 0, e3, record_iteration = 0, tmp_count, trailing;
-	unsigned long n = 0, decrease_threshold = model->params->learning_rate_decrease_threshold, epoch = 0;
+	unsigned long n = 0, epoch = 0;
 	double loss = -1, loss_tmp = 0.0, record_keeper = 0.0;
-	double initial_learning_rate = model->params->learning_rate;
+	double initial_learning_rate = params->learning_rate;
 	time_t time_iter;
 	char time_buffer[40];
-	int stateful = model->params->stateful, decrease_lr = model->params->decrease_lr;
+	unsigned long iterations = params->iterations;
+	int stateful = params->stateful, decrease_lr = params->decrease_lr;
 	// configuration for output printing during training
-	int print_progress = model->params->print_progress;
-	int print_progress_iterations = model->params->print_progress_iterations;
-	int print_progress_sample_output = model->params->print_progress_sample_output;
-	int print_progress_to_file = model->params->print_progress_to_file;
-	int print_progress_number_of_chars = model->params->print_progress_number_of_chars;
-	char *print_progress_to_file_name = model->params->print_sample_output_to_file_name;
-	char *print_progress_to_file_arg = model->params->print_sample_output_to_file_arg;
-	int store_progress_evert_x_iterations = model->params->store_progress_evert_x_iterations;
-	char *store_progress_file_name = model->params->store_progress_file_name;
+	int print_progress = params->print_progress;
+	int print_progress_iterations = params->print_progress_iterations;
+	int print_progress_sample_output = params->print_progress_sample_output;
+	int print_progress_to_file = params->print_progress_to_file;
+	int print_progress_number_of_chars = params->print_progress_number_of_chars;
+	char *print_progress_to_file_name = params->print_sample_output_to_file_name;
+	char *print_progress_to_file_arg = params->print_sample_output_to_file_arg;
+	int store_progress_every_x_iterations = params->store_progress_every_x_iterations;
+	char *store_progress_file_name = params->store_progress_file_name;
+	int store_network_every = params->store_network_every;
 
 	lstm_values_state_t ** stateful_d_next;
 	lstm_values_cache_t ***cache_layers;
 	lstm_values_next_cache_t **d_next_layers;
 	
 	lstm_model_t **gradient_layers, **gradient_layers_entry,  **M_layers, **R_layers;
 
-	N = model->N;
-	F = model->F;
-	S = model->S;
+	N = model_layers[0]->N;
+	F = model_layers[0]->F;
+	S = model_layers[0]->S;
 
 	double first_layer_input[F];
 
@@ -1252,7 +1254,7 @@ void lstm_train(lstm_model_t* model, lstm_model_t** model_layers, set_T* char_in
 			lstm_init_fail("Failed to allocate memory for stateful backprop through time deltas\n");
 		i = 0;
 		while ( i < layers) {
-			stateful_d_next[i] = calloc( training_points/model->params->mini_batch_size + 1, sizeof(lstm_values_state_t));
+			stateful_d_next[i] = calloc( training_points/params->mini_batch_size + 1, sizeof(lstm_values_state_t));
 			if ( stateful_d_next[i] == NULL )
 				lstm_init_fail("Failed to allocate memory for stateful backprop through time deltas, inner in layer\n");
 			lstm_values_state_init(&stateful_d_next[i], N);
@@ -1267,12 +1269,12 @@ void lstm_train(lstm_model_t* model, lstm_model_t** model_layers, set_T* char_in
 		lstm_init_fail("Failed to allocate memory for the caches\n");
 
 	while ( i < layers ) {
-		cache_layers[i] = calloc(model->params->mini_batch_size + 1, sizeof(lstm_values_cache_t*));
+		cache_layers[i] = calloc(params->mini_batch_size + 1, sizeof(lstm_values_cache_t*));
 		if ( cache_layers[i] == NULL )
 			lstm_init_fail("Failed to allocate memory for the caches\n");
 
 		p = 0;
-		while ( p < model->params->mini_batch_size + 1 ){
+		while ( p < params->mini_batch_size + 1 ){
 			cache_layers[i][p] = lstm_cache_container_init(N, F);
 			if ( cache_layers[i][p] == NULL )
 				lstm_init_fail("Failed to allocate memory for the caches\n");		
@@ -1294,7 +1296,7 @@ void lstm_train(lstm_model_t* model, lstm_model_t** model_layers, set_T* char_in
 	if ( d_next_layers == NULL )
 		lstm_init_fail("Failed to allocate memory for backprop through time deltas\n");
 
-	if ( model->params->optimizer == OPTIMIZE_ADAM ) {
+	if ( params->optimizer == OPTIMIZE_ADAM ) {
 
 		M_layers = calloc(layers, sizeof(lstm_model_t*) );
 		R_layers = calloc(layers, sizeof(lstm_model_t*) );
@@ -1307,13 +1309,13 @@ void lstm_train(lstm_model_t* model, lstm_model_t** model_layers, set_T* char_in
 
 	i = 0;
 	while ( i < layers ) {
-		lstm_init_model(F, N, &gradient_layers[i], 1, model->params);
-		lstm_init_model(F, N, &gradient_layers_entry[i], 1, model->params);
+		lstm_init_model(F, N, &gradient_layers[i], 1, params);
+		lstm_init_model(F, N, &gradient_layers_entry[i], 1, params);
 		lstm_values_next_cache_init(&d_next_layers[i], N, F);
 
-		if ( model->params->optimizer == OPTIMIZE_ADAM ) {
-			lstm_init_model(F, N, &M_layers[i], 1, model->params);
-			lstm_init_model(F, N, &R_layers[i], 1, model->params);
+		if ( params->optimizer == OPTIMIZE_ADAM ) {
+			lstm_init_model(F, N, &M_layers[i], 1, params);
+			lstm_init_model(F, N, &R_layers[i], 1, params);
 		}
 
 		++i;
@@ -1341,9 +1343,9 @@ void lstm_train(lstm_model_t* model, lstm_model_t** model_layers, set_T* char_in
 
 		unsigned int check = i % training_points;
 
-		trailing = model->params->mini_batch_size;
+		trailing = params->mini_batch_size;
 
-		if ( i + model->params->mini_batch_size >= training_points ) {
+		if ( i + params->mini_batch_size >= training_points ) {
 			trailing = training_points - i;
 		}
 
@@ -1385,7 +1387,7 @@ void lstm_train(lstm_model_t* model, lstm_model_t** model_layers, set_T* char_in
 		if ( loss < 0 )
 			loss = loss_tmp;
 
-		loss = loss_tmp * model->params->loss_moving_avg + (1 - model->params->loss_moving_avg) * loss;
+		loss = loss_tmp * params->loss_moving_avg + (1 - params->loss_moving_avg) * loss;
 
 		if ( n == 0 )
 			record_keeper = loss;
@@ -1450,18 +1452,18 @@ void lstm_train(lstm_model_t* model, lstm_model_t** model_layers, set_T* char_in
 		p = 0;
 		while ( p < layers ) {
 
-			if ( model->params->gradient_clip )
-				gradients_clip(gradient_layers[p], model->params->gradient_clip_limit);
+			if ( params->gradient_clip )
+				gradients_clip(gradient_layers[p], params->gradient_clip_limit);
 
-			if ( model->params->gradient_fit )
-				gradients_fit(gradient_layers[p], model->params->gradient_clip_limit);
+			if ( params->gradient_fit )
+				gradients_fit(gradient_layers[p], params->gradient_clip_limit);
 
 			++p;
 		}
 
 		p = 0;
 
-		switch ( model->params->optimizer ) {
+		switch ( params->optimizer ) {
 		case OPTIMIZE_ADAM:
 			while ( p < layers ) {
 				gradients_adam_optimizer(model_layers[p], gradient_layers[p], M_layers[p], R_layers[p], n);
@@ -1495,7 +1497,7 @@ lstm_model_parameters_t has a field called 'optimizer'. Set this value to:\n\
 			time(&time_iter);
 			strftime(time_buffer, sizeof time_buffer, "%X", localtime(&time_iter));
 
-			printf("%s Iteration: %lu (epoch: %lu), Loss: %lf, record: %lf (iteration: %d), LR: %lf\n", time_buffer, n, epoch, loss, record_keeper, record_iteration, model->params->learning_rate);
+			printf("%s Iteration: %lu (epoch: %lu), Loss: %lf, record: %lf (iteration: %d), LR: %lf\n", time_buffer, n, epoch, loss, record_keeper, record_iteration, params->learning_rate);
 
 			if ( print_progress_sample_output ) {
 				printf("=====================================================\n");
@@ -1516,20 +1518,29 @@ lstm_model_parameters_t has a field called 'optimizer'. Set this value to:\n\
 			fflush(stdout);
 		}
 
-		if ( store_progress_evert_x_iterations && !(n % store_progress_evert_x_iterations ))
+		if ( store_progress_every_x_iterations && !(n % store_progress_every_x_iterations ))
 			lstm_store_progress(store_progress_file_name, n, loss);
 
-		if ( b + model->params->mini_batch_size >= training_points )
+		if ( store_network_every && !(n % store_network_every) ) {
+			lstm_store_net_layers(model_layers, params->store_network_name_raw, layers);
+			lstm_store_net_layers_as_json(model_layers, params->store_network_name_json, params->store_char_indx_map_name, char_index_mapping, layers);
+			printf("\nStored the net as: '%s'\nYou can use that file in the .html interface.\n", 
+				params->store_network_name_json);
+			printf("The net in its raw format is stored as: '%s'.\nYou can use that with the -r flag \
+to continue refining the weights.\n", params->store_network_name_raw); 
+		}
+
+		if ( b + params->mini_batch_size >= training_points )
 			epoch++;
 
-		i = (b + model->params->mini_batch_size) % training_points;
+		i = (b + params->mini_batch_size) % training_points;
 
-		if ( i < model->params->mini_batch_size){
+		if ( i < params->mini_batch_size){
 			i = 0;
 		}
 
 		if ( decrease_lr ) {
-			model->params->learning_rate = initial_learning_rate / ( 1.0 + n / model->params->learning_rate_decrease );
+			params->learning_rate = initial_learning_rate / ( 1.0 + n / params->learning_rate_decrease );
 //			printf("learning rate: %lf\n", model->params->learning_rate);
 		}
 
@@ -1541,7 +1552,7 @@ lstm_model_parameters_t has a field called 'optimizer'. Set this value to:\n\
 		lstm_values_next_cache_free(d_next_layers[p]);
 
 		i = 0;
-		while ( i < model->params->mini_batch_size) {
+		while ( i < params->mini_batch_size) {
 			lstm_cache_container_free(cache_layers[p][i]);
 			lstm_cache_container_free(cache_layers[p][i]);
 			++i;
diff --git a/lstm.h b/lstm.h
@@ -52,6 +52,7 @@ typedef struct lstm_model_parameters_t {
 	int model_regularize;
 	int stateful;
 	int decrease_lr;
+	double learning_rate_decrease;
 
 	// How many layers
 	int layers;
@@ -64,14 +65,17 @@ typedef struct lstm_model_parameters_t {
 	int  print_progress_number_of_chars;
 	char *print_sample_output_to_file_name;
 	char *print_sample_output_to_file_arg;
-	int  store_progress_evert_x_iterations;
+	int  store_progress_every_x_iterations;
 	char *store_progress_file_name;
+	int  store_network_every;
+	char *store_network_name_raw;
+	char *store_network_name_json;
+	char *store_char_indx_map_name;
 
-	int learning_rate_decrease_threshold;
-	double learning_rate_decrease;
 	// General parameters
 	int mini_batch_size;
 	double gradient_clip_limit;
+	unsigned long iterations;
 } lstm_model_parameters_t;
 
 typedef struct lstm_model_t
@@ -180,7 +184,7 @@ void lstm_store_progress(const char*, unsigned int, double);
 
 // The main entry point
 //						model, number of training points, X_train, Y_train, number of iterations
-void lstm_train(lstm_model_t*, lstm_model_t**, set_T*, unsigned int, int*, int*, unsigned long, int);
+void lstm_train(lstm_model_t**, lstm_model_parameters_t*, set_T*, unsigned int, int*, int*, int);
 // Used to output a given number of characters from the net based on an input char
 void lstm_output_string_layers(lstm_model_t **, set_T*, int, int, int);
 void lstm_output_string_from_string_layers(lstm_model_t **, set_T*, char *, int, int);
diff --git a/main.c b/main.c
@@ -35,6 +35,71 @@ to continue refining the weights.\n", STD_LOADABLE_NET_NAME);
 	return;
 }
 
+void usage(char *argv[]) {
+	printf("Usage: %s datafile [flag value]*\n", argv[0]);
+	printf("\n");
+	printf("Flags can be used to change the training procedure.\n");
+	printf("The flags require a value to be passed as the following argument.\n");
+	printf("    E.g., this is how you traing with a learning rate set to 0.03:\n");
+	printf("        %s datafile -lr 0.03\n", argv[0]);
+	printf("\n");
+	printf("The following flags are available:\n");
+	printf("    -r : read a previously trained network, the name of which is currently configured to be '%s'.\n", STD_LOADABLE_NET_NAME);
+	printf("    -lr: learning rate that is to be used during training, see the example above.\n");
+	printf("    -it: the number of iterations used for training (not to be confused with epochs).\n");
+	printf("    -mb: mini batch size.\n");
+	printf("    -dl: decrease the learning rate over time, according to lr(n+1) <- lr(n) / (1 + n/value).\n");
+	printf("    -st: number of iterations between how the network is continously stored during training (.json and .net).\n");
+	printf("\n");
+	printf("Check std_conf.h to see what default values are used, these are set during compilation.\n");
+	printf("\n");
+	printf("%s compiled %s %s\n", argv[0], __DATE__, __TIME__);
+	exit(1);
+}
+
+void parse_input_args(int argc, char** argv, lstm_model_parameters_t* params)
+{
+	int a = 0;
+
+	while ( a < argc ) {
+
+		if ( argc <= (a+1) )
+			break; // All flags have values attributed to them
+
+		if ( !strcmp(argv[a], "-r") ) {
+			lstm_read_net_layers(model_layers, argv[a + 1], LAYERS);
+		} else if ( !strcmp(argv[a], "-lr") ) {
+			params->learning_rate = atof(argv[a + 1]);
+			if ( params->learning_rate == 0.0 ) {
+				usage(argv);
+			}
+		} else if ( !strcmp(argv[a], "-mb") ) {
+			params->mini_batch_size = atoi(argv[a + 1]);
+			if ( params->mini_batch_size <= 0 ) {
+				usage(argv);
+			}
+		} else if ( !strcmp(argv[a], "-it") ) {
+			params->iterations = (unsigned long) atol(argv[a + 1]);
+			if ( params->iterations == 0 ) {
+				usage(argv);
+			}
+		} else if ( !strcmp(argv[a], "-dl") ) {
+			params->learning_rate_decrease = atof(argv[a + 1]);
+			if ( params->learning_rate_decrease == 0 ) {
+				usage(argv);
+			}
+			params->decrease_lr = 1;
+		} else if ( !strcmp(argv[a], "-st") ) {
+			params->store_network_every = atoi(argv[a + 1]);
+			if ( params->store_network_every == 0 ) {
+				usage(argv);
+			}
+		}
+
+		a += 2;
+	}
+}
+
 int main(int argc, char *argv[])
 {
 	int i = 0, c, p = 0;
@@ -43,9 +108,12 @@ int main(int argc, char *argv[])
 	char * clean;
 	FILE * fp;
 
+	int layers = LAYERS;
+
 	lstm_model_parameters_t params;
 	memset(&params, 0, sizeof(params));
 
+	params.iterations = ITERATIONS;
 	params.loss_moving_avg = LOSS_MOVING_AVG;
 	params.learning_rate = STD_LEARNING_RATE;
 	params.momentum = STD_MOMENTUM;
@@ -54,7 +122,6 @@ int main(int argc, char *argv[])
 	params.mini_batch_size = MINI_BATCH_SIZE;
 	params.gradient_clip_limit = GRADIENT_CLIP_LIMIT;
 	params.learning_rate_decrease = STD_LEARNING_RATE_DECREASE;
-	params.learning_rate_decrease_threshold = STD_LEARNING_RATE_THRESHOLD;
 	params.stateful = STATEFUL;
 	params.beta1 = 0.9;
 	params.beta2 = 0.999;
@@ -72,13 +139,16 @@ int main(int argc, char *argv[])
 	params.print_progress_number_of_chars = NUMBER_OF_CHARS_TO_DISPLAY_DURING_TRAINING;
 	params.print_sample_output_to_file_arg = PRINT_SAMPLE_OUTPUT_TO_FILE_ARG;
 	params.print_sample_output_to_file_name = PRINT_SAMPLE_OUTPUT_TO_FILE_NAME;
-	params.store_progress_evert_x_iterations = STORE_PROGRESS_EVERY_X_ITERATIONS;
+	params.store_progress_every_x_iterations = STORE_PROGRESS_EVERY_X_ITERATIONS;
 	params.store_progress_file_name = PROGRESS_FILE_NAME;
+	params.store_network_name_raw = STD_LOADABLE_NET_NAME;
+	params.store_network_name_json = STD_LOADABLE_NET_NAME;
+	params.store_char_indx_map_name = JSON_KEY_NAME_SET;
 
 	srand( time ( NULL ) );
 
 	if ( argc < 2 ) {
-		printf("Usage: %s datafile [-r name_of_net_to_load]\n", argv[0]);
+		usage(argv);
 		return -1;
 	}
 
@@ -110,10 +180,6 @@ int main(int argc, char *argv[])
 		X_train[sz++] = set_char_to_indx(&set,c);
 	fclose(fp);
 
-	int layers = LAYERS;
-
-	params.layers = layers;
-
 	model_layers = calloc(layers, sizeof(lstm_model_t*));
 
 	if ( model_layers == NULL ) {
@@ -124,14 +190,12 @@ int main(int argc, char *argv[])
 	p = 0;
 
 	while ( p < layers ) {
+		// All layers have the same training parameters
 		lstm_init_model(set_get_features(&set), NEURONS, &model_layers[p], 0, &params);	
 		++p;
 	}
 
-	if ( argc >= 4 && !strcmp(argv[2], "-r") ) {
-		lstm_read_net_layers(model_layers, argv[3], LAYERS);
-	}
-
+	parse_input_args(argc, argv, &params);
 
 	if ( argc >= 6 && !strcmp(argv[4], "-c") ) {
 		do {
@@ -149,13 +213,12 @@ int main(int argc, char *argv[])
 		signal(SIGINT, store_the_net_layers);
 
 		lstm_train(
-			model_layers[0],
 			model_layers,
+			&params,
 			&set,
 			file_size,
 			X_train,
 			Y_train,
-			ITERATIONS,
 			layers
 		);
 
diff --git a/std_conf.h b/std_conf.h