29 Star 148 Fork 52

太初/紫东太初多模态大模型

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
文件
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

在线语音检测与识别多任务模型

模型介绍

lrsr

模型下载

链接: https://pan.baidu.com/s/1Vrio_-v3-FRkSPIyf_vFXw  密码: ic99 

将下载解压后的 'taichu' 文件夹放到路径 'speech/data' 下。 整体项目存放路径形式如下所示:

multi-modal-models
└──────speech
        ├───http
        ├───data
        │   ├───models
        │   │   └───taichu      
        │   │         └───LRSR_small.pt
        │   │         └───checkpoint_last_ft.pt
        │   │         └───wav2vec_small.pt
        │   │         └───hkust_wrd.bin  
        │   ├───dict.ltr.txt
        │   │
        │   └───lexicon.txt
        │       
        ├───...
        ├───...
        ├───...

安装说明

本项目基于开源工具 fairseq 实现。 请参照 README-fairseq 进行安装.

应用示例

websocket服务端部署

bash http/run_server_develop.sh

websocket客户端在线识别

python /data3/mli2/multi-modal-models/speech/http/infer_client.py your_example.wav

文献引用

@article{Li2021LongRunningSR,
  title={Long-Running Speech Recognizer: An End-to-End Multi-Task Learning Framework for Online ASR and VAD},
  author={Meng Li and Shiyu Zhou and Bo Xu},
  journal={ArXiv},
  year={2021},
  volume={abs/2103.01661}
}

联系方式

If you have any questions on the reimplementation, please consult limeng@ia.ac.cn

马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
Python
1
https://gitee.com/zidongtaichu/multi-modal-models.git
git@gitee.com:zidongtaichu/multi-modal-models.git
zidongtaichu
multi-modal-models
紫东太初多模态大模型
master

搜索帮助