在线语音检测与识别多任务模型

模型介绍

lrsr

模型下载

链接: https://pan.baidu.com/s/1Vrio_-v3-FRkSPIyf_vFXw  密码: ic99

将下载解压后的 'taichu' 文件夹放到路径 'speech/data' 下。整体项目存放路径形式如下所示：

multi-modal-models
└──────speech
        ├───http
        ├───data
        │   ├───models
        │   │   └───taichu      
        │   │         └───LRSR_small.pt
        │   │         └───checkpoint_last_ft.pt
        │   │         └───wav2vec_small.pt
        │   │         └───hkust_wrd.bin  
        │   ├───dict.ltr.txt
        │   │
        │   └───lexicon.txt
        │       
        ├───...
        ├───...
        ├───...

安装说明

本项目基于开源工具 fairseq 实现。请参照 README-fairseq 进行安装.

应用示例

websocket服务端部署

bash http/run_server_develop.sh

websocket客户端在线识别

python /data3/mli2/multi-modal-models/speech/http/infer_client.py your_example.wav

文献引用

@article{Li2021LongRunningSR,
  title={Long-Running Speech Recognizer: An End-to-End Multi-Task Learning Framework for Online ASR and VAD},
  author={Meng Li and Shiyu Zhou and Bo Xu},
  journal={ArXiv},
  year={2021},
  volume={abs/2103.01661}
}

联系方式

If you have any questions on the reimplementation, please consult limeng@ia.ac.cn

太初/紫东太初多模态大模型

在线语音检测与识别多任务模型

模型介绍

模型下载

安装说明

应用示例

websocket服务端部署

websocket客户端在线识别

文献引用

联系方式

简介

发行版

贡献者

近期动态

太初/紫东太初多模态大模型 .gitee-modal { width: 500px !important; }

在线语音检测与识别多任务模型

模型介绍

模型下载

安装说明

应用示例

websocket服务端部署

websocket客户端在线识别

文献引用

联系方式

简介

发行版

贡献者

近期动态

搜索帮助

太初/紫东太初多模态大模型