PaddleSpeech CLI Batch Process

PaddleSpeech CLI - Batch Process

需求

用户反馈 CLI 调用慢。如 #1423
用户询问如果做批处理。如 #1438、#1252

收益

从客户需求出发，支持批处理操作。
相对原始单条处理设计去除重复加载模型时间，所以速度更快，改善用户体验。
符合产品意识和客户意识。

方案

输入时通过参数 --job 指定 job 文件，加载模型后循环调用 Executor 获取识别结果，技术执行后保存 job.done 文件。
job.done 默认不保存，当指定 --dump-job-result 时生效。

job 输入格式

job 文件输入、输出统一是用 key value的 map 格式。

调用失败格式统一，如下：

key "error info"

ASR

输入:

001 /path/to/001.wav
002 /path/to/002.wav

输出:

001 我叫张辉
002 一个很酷的人

Punc

输入:

001  我叫张辉
002  一个很酷的人

输出:

001 我叫张辉。
002 一个很酷的人。

ST

输入:

001 /path/to/001.wav
002 /path/to/002.wav

输出:

001 我叫张辉
002 一个很酷的人

TTS

输入:

我叫张辉 /path/to/save/001.wav
一个很酷的人 /path/to/save/002.wav

输出:

我叫张辉 /path/to/save/001.wav
一个很酷的人 /path/to/save/002.wav

CLS

输入:

001  /path/to/001.wav
002  /path/to/002.wav

输出:

001 Apple
002 Dog

Verbose 输出:

001 Apple 0.91
002 Dog 0.83

PaddleSpeech CLI Batch Process

PaddleSpeech CLI - Batch Process

需求

收益

方案

job 输入格式

ASR

Punc

ST

TTS

CLS

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Clone this wiki locally