PaddleSpeech CLI Batch Process

需求

用户反馈 CLI 调用慢。如 #1423
用户询问如果做批处理。如 #1438、#1252

收益

从客户需求出发，支持批处理操作。
相对原始单条处理设计去除重复加载模型时间，所以速度更快，改善用户体验。
符合产品意识和客户意识。

方案

输入时通过参数 --input 指定 job 文件，加载模型后循环调用 Executor 获取识别结果.
--input 也支持 stdin, str 单条输入。
技术执行后将结果输出到stdout上。
当指定 --job-dump-result 时，同时保存结果到 job.done 文件中。默认False。

job 输入格式

job 文件输入、输出统一是用 key value的 map 格式。

出错是默认采用格式一，如下：

key <space>

当指定 --job-dump-err时采用格式二，如下：

key <error info>

ASR

输入:

001 /path/to/001.wav
002 /path/to/002.wav

输出:

001 我叫张辉
002 一个很酷的人

Punc

输入:

001  我叫张辉
002  一个很酷的人

输出:

001 我叫张辉。
002 一个很酷的人。

ST

输入:

001 /path/to/001.wav
002 /path/to/002.wav

输出:

001 我叫张辉
002 一个很酷的人

TTS

输入:

我叫张辉 /path/to/save/001.wav
一个很酷的人 /path/to/save/002.wav

输出:

我叫张辉 /path/to/save/001.wav
一个很酷的人 /path/to/save/002.wav

CLS

输入:

001  /path/to/001.wav
002  /path/to/002.wav

输出:

001 Apple
002 Dog

Verbose 输出:

001 Apple 0.91
002 Dog 0.83

示例

befc43f37f4ba26645e747be802935a0

PaddleSpeech CLI Batch Process

PaddleSpeech CLI Batch Process

需求

收益

方案

job 输入格式

ASR

Punc

ST

TTS

CLS

示例

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Clone this wiki locally