@@ -2615,13 +2615,19 @@ void llama_perf_context_print(const llama_context * ctx) {
26152615 const auto data = llama_perf_context (ctx);
26162616
26172617 const double t_end_ms = 1e-3 * ggml_time_us ();
2618-
26192618 LLAMA_LOG_INFO (" %s: load time = %10.2f ms\n " , __func__, data.t_load_ms );
26202619 LLAMA_LOG_INFO (" %s: prompt eval time = %10.2f ms / %5d tokens (%8.2f ms per token, %8.2f tokens per second)\n " ,
26212620 __func__, data.t_p_eval_ms , data.n_p_eval , data.t_p_eval_ms / data.n_p_eval , 1e3 / data.t_p_eval_ms * data.n_p_eval );
26222621 LLAMA_LOG_INFO (" %s: eval time = %10.2f ms / %5d runs (%8.2f ms per token, %8.2f tokens per second)\n " ,
26232622 __func__, data.t_eval_ms , data.n_eval , data.t_eval_ms / data.n_eval , 1e3 / data.t_eval_ms * data.n_eval );
26242623 LLAMA_LOG_INFO (" %s: total time = %10.2f ms / %5d tokens\n " , __func__, (t_end_ms - data.t_start_ms ), (data.n_p_eval + data.n_eval ));
2624+
2625+ LLAMA_LOG_TSAVORITE (" %s: load time = %10.2f ms\n " , __func__, data.t_load_ms );
2626+ LLAMA_LOG_TSAVORITE (" %s: prompt eval time = %10.2f ms / %5d tokens (%8.2f ms per token, %8.2f tokens per second)\n " ,
2627+ __func__, data.t_p_eval_ms , data.n_p_eval , data.t_p_eval_ms / data.n_p_eval , 1e3 / data.t_p_eval_ms * data.n_p_eval );
2628+ LLAMA_LOG_TSAVORITE (" %s: eval time = %10.2f ms / %5d runs (%8.2f ms per token, %8.2f tokens per second)\n " ,
2629+ __func__, data.t_eval_ms , data.n_eval , data.t_eval_ms / data.n_eval , 1e3 / data.t_eval_ms * data.n_eval );
2630+ LLAMA_LOG_TSAVORITE (" %s: total time = %10.2f ms / %5d tokens\n " , __func__, (t_end_ms - data.t_start_ms ), (data.n_p_eval + data.n_eval ));
26252631}
26262632
26272633void llama_perf_context_reset (llama_context * ctx) {
0 commit comments