Add OpenAIResponseHandler with Ollama response conversion and update VllmChatCompletion and OpenAI completion handlers to use unified response processing.

Paweł Kędzia · Paweł Kędzia · commit 17e7837f7e15 · 2025-11-17T03:05:18.000+01:00
diff --git a/llm_router_api/core/api_types/openai.py b/llm_router_api/core/api_types/openai.py
@@ -1,5 +1,8 @@
 from __future__ import annotations
 
+import datetime
+from dateutil import parser
+
 from llm_router_api.core.api_types.types_i import ApiTypesI
 
 
@@ -39,3 +42,53 @@ def completions_ep(self) -> str:
 
     def completions_method(self) -> str:
         return "POST"
+
+
+class OpenAIConverters:
+    class FromOllama:
+        @staticmethod
+        def convert(response):
+            created_at = response.get("created_at")
+            if not created_at:
+                created_at = datetime.datetime.now().timestamp()
+            else:
+                created_at = parser.isoparse(created_at).timestamp()
+            prompt_tokens = int(response.get("prompt_eval_count", 0))
+            completion_tokens = int(response.get("eval_count", 0))
+
+            return {
+                "id": response.get("id"),
+                "object": "chat.completion",
+                "created": created_at,
+                "model": response.get("model", ""),
+                "choices": [
+                    {
+                        "index": 0,
+                        "message": {
+                            "role": "assistant",
+                            "content": response["message"]["content"],
+                            "refusal": None,
+                            "annotations": None,
+                            "audio": None,
+                            "function_call": None,
+                            "tool_calls": [],
+                            "reasoning_content": response["message"].get("thinking"),
+                        },
+                        "logprobs": None,
+                        "finish_reason": response.get("done_reason", "stop"),
+                        "stop_reason": None,
+                        "token_ids": None,
+                    }
+                ],
+                "service_tier": None,
+                "system_fingerprint": None,
+                "usage": {
+                    "prompt_tokens": prompt_tokens,
+                    "total_tokens": prompt_tokens + completion_tokens,
+                    "completion_tokens": completion_tokens,
+                    "prompt_tokens_details": None,
+                },
+                "prompt_logprobs": None,
+                "prompt_token_ids": None,
+                "kv_transfer_params": None,
+            }
diff --git a/llm_router_api/endpoints/builtin/openai.py b/llm_router_api/endpoints/builtin/openai.py
@@ -7,18 +7,30 @@
 derived classes for completions and model listing.
 """
 
+import abc
 import datetime
+
 from typing import Optional, Dict, Any, List
 
 from rdl_ml_utils.handlers.prompt_handler import PromptHandler
 
 from llm_router_api.core.decorators import EP
+from llm_router_api.core.api_types.openai import OpenAIConverters
 from llm_router_api.base.model_handler import ModelHandler
 from llm_router_api.base.constants import REST_API_LOG_LEVEL
 from llm_router_api.endpoints.passthrough import PassthroughI
 
 
-class OpenAICompletionHandler(PassthroughI):
+class OpenAIResponseHandler(PassthroughI, abc.ABC):
+    @staticmethod
+    def prepare_response_function(response):
+        response = response.json()
+        if "message" in response:
+            return OpenAIConverters.FromOllama.convert(response=response)
+        return response
+
+
+class OpenAICompletionHandler(OpenAIResponseHandler):
     """
     Completion endpoint that re‑uses the chat implementation but targets the
     ``/chat/completions`` route of an OpenAI‑compatible service.
@@ -51,8 +63,10 @@ def __init__(
             method="POST",
         )
 
+        self._prepare_response_function = self.prepare_response_function
 
-class OpenAICompletionHandlerWOApi(PassthroughI):
+
+class OpenAICompletionHandlerWOApi(OpenAIResponseHandler):
     """
     Completion endpoint that re‑uses the chat implementation but targets the
     ``/chat/completions`` route of an OpenAI‑compatible service.
@@ -85,6 +99,8 @@ def __init__(
             method="POST",
         )
 
+        self._prepare_response_function = self.prepare_response_function
+
 
 class OpenAIModelsHandler(PassthroughI):
     """
diff --git a/llm_router_api/endpoints/builtin/vllm.py b/llm_router_api/endpoints/builtin/vllm.py
@@ -1,13 +1,13 @@
-from typing import Optional, Dict, Any, List
+from typing import Optional
 
 from rdl_ml_utils.handlers.prompt_handler import PromptHandler
 
 from llm_router_api.base.model_handler import ModelHandler
 from llm_router_api.base.constants import REST_API_LOG_LEVEL
-from llm_router_api.endpoints.passthrough import PassthroughI
+from llm_router_api.endpoints.builtin.openai import OpenAIResponseHandler
 
 
-class VllmChatCompletion(PassthroughI):
+class VllmChatCompletion(OpenAIResponseHandler):
     REQUIRED_ARGS = None
     OPTIONAL_ARGS = None
     SYSTEM_PROMPT_NAME = None
@@ -53,3 +53,5 @@ def __init__(
             dont_add_api_prefix=dont_add_api_prefix,
             direct_return=False,
         )
+
+        self._prepare_response_function = self.prepare_response_function