STT模型

代码部署:

服务器python环境Speech,代码目录/home/inspur/bl/STT

Faster whisper

faster-whisper基于whisper,拥有更快的推理速度。

目前测试来看medium和large-v3模型相对准确,20s语音推理速度1.8s。

FunASR

开源模型:

https://www.modelscope.cn/models?page=1&tasks=auto-speech-recognition

服务器/home/inspur/bl/STT/funasr

本地flask或者Fastapi部署测试,安装如下环境

Docker服务端部署与客户端测试文档:

Docker部署无需安装环境

实时版本

https://github.com/alibaba-damo-academy/FunASR/blob/main/runtime/docs/SDK_advanced_guide_online_zh.md

离线版本

https://github.com/alibaba-damo-academy/FunASR/blob/main/runtime/docs/SDK_advanced_guide_offline_zh.md

示例提供了前端页面,孙村服务器完成部署,本地打开html测试

asr服务器地址wss://103.239.152.247:10095/

Funasr微调

数据集格式需确定

https://github.com/alibaba-damo-academy/FunASR/blob/main/examples/industrial_data_pretraining/paraformer/finetune.sh

微调过程

https://github.com/alibaba-damo-academy/FunASR/wiki/%E5%BF%AB%E9%80%9F%E8%AE%AD%E7%BB%83#%E8%AE%AD%E7%BB%83%E8%BE%93%E5%85%A5%E5%8F%82%E6%95%B0%E4%BB%8B%E7%BB%8D

微调过程需要调用FunASR\examples\industrial_data_pretraining\paraformer目录下的finetune_from_local.sh脚本命令,同时需要对命令进行一些修改

数据格式确认:

微调所需的数据放在脚本命令中定义的data_dir目录中,主要是准备好训练集和测试集的jsonl文件,jsonl文件可以使用funasr中的python代码,通过txt和scp文件生成,

txt和scp的文件内容如下

生成jsonl内容如下

Paddle Speech

代码库维护较差,依赖包版本混乱,容易出现bug

发表评论

邮箱地址不会被公开。 必填项已用*标注