fix: 跟随前端更新TTS等部分

Mag1cFall · Mag1cFall · commit 501a86cc5306 · 2025-12-11T16:32:04.000+08:00
diff --git a/docs/media-generation-guide.md b/docs/media-generation-guide.md
@@ -54,8 +54,8 @@ payload = {
 response = requests.post(url, json=payload)
 data = response.json()
 
-for i, image in enumerate(data['images']):
-    image_bytes = base64.b64decode(image['data'])
+for i, img in enumerate(data['generatedImages']):
+    image_bytes = base64.b64decode(img['image']['imageBytes'])
     with open(f'imagen_output_{i}.png', 'wb') as f:
         f.write(image_bytes)
 ```
@@ -71,7 +71,7 @@ $body = @{
 } | ConvertTo-Json
 
 $response = Invoke-RestMethod -Uri "http://localhost:2048/generate-image" -Method Post -ContentType "application/json" -Body $body
-$imageData = $response.images[0].data
+$imageData = $response.generatedImages[0].image.imageBytes
 [System.IO.File]::WriteAllBytes("C:\output.png", [Convert]::FromBase64String($imageData))
 ```
 
@@ -120,8 +120,8 @@ payload = {
 response = requests.post(url, json=payload, timeout=600)
 data = response.json()
 
-for i, video in enumerate(data['videos']):
-    video_bytes = base64.b64decode(video['data'])
+for i, vid in enumerate(data['generatedVideos']):
+    video_bytes = base64.b64decode(vid['video']['videoBytes'])
     with open(f'veo_output_{i}.mp4', 'wb') as f:
         f.write(video_bytes)
 ```
@@ -147,7 +147,7 @@ payload = {
 response = requests.post(url, json=payload, timeout=600)
 data = response.json()
 
-video_bytes = base64.b64decode(data['videos'][0]['data'])
+video_bytes = base64.b64decode(data['generatedVideos'][0]['video']['videoBytes'])
 with open('output_video.mp4', 'wb') as f:
     f.write(video_bytes)
 ```
@@ -256,17 +256,35 @@ for i, part in enumerate(parts):
 
 ## 响应格式
 
-### Imagen / Veo 响应
+### Imagen 响应
 
 ```json
 {
-  "images": [
+  "generatedImages": [
     {
-      "data": "<Base64 编码的图片数据>",
-      "mimeType": "image/png",
-      "index": 0
+      "image": {
+        "imageBytes": "<Base64 编码的图片数据>",
+        "mimeType": "image/png"
+      }
     }
-  ]
+  ],
+  "modelVersion": "imagen-3.0-generate-002"
+}
+```
+
+### Veo 响应
+
+```json
+{
+  "generatedVideos": [
+    {
+      "video": {
+        "videoBytes": "<Base64 编码的视频数据>",
+        "mimeType": "video/mp4"
+      }
+    }
+  ],
+  "modelVersion": "veo-2.0-generate-001"
 }
 ```
 
diff --git a/src/config/tts_selectors.py b/src/config/tts_selectors.py
@@ -10,7 +10,7 @@
 TTS_FOOTER_AUDIO_PLAYER_WRAPPER_SELECTOR = '.speech-prompt-footer-actions-left'
 TTS_AUDIO_PLAYER_SELECTOR = '.speech-prompt-footer audio[controls]'
 TTS_RUN_BUTTON_WRAPPER_SELECTOR = '.speech-prompt-footer .button-wrapper'
-TTS_RUN_BUTTON_SELECTOR = '.speech-prompt-footer button[aria-label="Run"].run-button'
+TTS_RUN_BUTTON_SELECTOR = 'ms-run-button button[aria-label="Run"]'
 
 TTS_SINGLE_SPEAKER_BUILDER_SELECTOR = '.single-speaker-prompt-builder-wrapper'
 TTS_SINGLE_SPEAKER_STYLE_INPUT_SELECTOR = 'ms-autosize-textarea.style-instructions-textarea textarea'
diff --git a/src/media/imagen_controller.py b/src/media/imagen_controller.py
@@ -175,6 +175,7 @@ async def wait_for_images(self, expected_count: int, check_client_disconnected:
                     for i in range(current_count):
                         img = image_locator.nth(i)
                         src = await img.get_attribute('src') or ''
+                        self.logger.info(f'[{self.req_id}] 图片 {i} src 类型: {src[:50] if src else "空"}...')
                         if src.startswith('data:image/'):
                             if ',' in src:
                                 header, base64_data = src.split(',', 1)
diff --git a/src/media/media_processor.py b/src/media/media_processor.py
@@ -90,6 +90,8 @@ async def process_image_request(
     
     images = await controller.wait_for_images(config.number_of_images, check_client_disconnected)
     
+    logger.info(f'[{req_id}] 📦 处理 {len(images)} 张图片数据...')
+    
     generated_images = []
     for img in images:
         generated_images.append({
@@ -99,6 +101,8 @@ async def process_image_request(
             }
         })
     
+    logger.info(f'[{req_id}] ✅ 返回响应 (generatedImages: {len(generated_images)})')
+    
     return {
         'generatedImages': generated_images,
         'modelVersion': config.model