代码拉取完成,页面将自动刷新
链接: https://pan.baidu.com/s/1Vrio_-v3-FRkSPIyf_vFXw 密码: ic99
将下载解压后的 'taichu' 文件夹放到路径 'speech/data' 下。 整体项目存放路径形式如下所示:
multi-modal-models
└──────speech
├───http
├───data
│ ├───models
│ │ └───taichu
│ │ └───LRSR_small.pt
│ │ └───checkpoint_last_ft.pt
│ │ └───wav2vec_small.pt
│ │ └───hkust_wrd.bin
│ ├───dict.ltr.txt
│ │
│ └───lexicon.txt
│
├───...
├───...
├───...
本项目基于开源工具 fairseq 实现。 请参照 README-fairseq 进行安装.
bash http/run_server_develop.sh
python /data3/mli2/multi-modal-models/speech/http/infer_client.py your_example.wav
@article{Li2021LongRunningSR,
title={Long-Running Speech Recognizer: An End-to-End Multi-Task Learning Framework for Online ASR and VAD},
author={Meng Li and Shiyu Zhou and Bo Xu},
journal={ArXiv},
year={2021},
volume={abs/2103.01661}
}
If you have any questions on the reimplementation, please consult limeng@ia.ac.cn
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。