@china_bing
多模态技术&空间计算
三维重建demo,简单易学
分享各行业实用的AI技术实践,涵盖视觉、语音、音频、点云、多模态等方面,欢迎Star!
RNN-Transducer demo示例,方便理解基本原理。
一个离线运行的本地音视频转字幕工具,采样最新whisper版本,准确率高,输出json、srt、纯文字格式字幕,无需申请第三方API,支持多语言。
kitti数据集的mini版本,训练集和测试集各选取100个样本,用于跑通流程。