# OSUM **Repository Path**: zyz0577/OSUM ## Basic Information - **Project Name**: OSUM - **Description**: No description available - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-02-21 - **Last Updated**: 2025-12-08 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README
中文   | English   | 日本語  
耿雪龙、邵琪杰、薛鸿飞、王水源、解晗轲、郭昭、赵懿、李国健、田文杰、王成友、赵致闲、夏康翔、张子萸、林振楠、左天伦、邵明辰、曹雨昂、马国斌、李龙豪、戴宇航、高德辉、郭大可、谢磊
Test Page | Ckpt
📑 Paper    |    📑 Demo    |    💬 WeChat (微信)  
## Architecture 本节呈现 OSUM-EChat 的整体架构与核心任务概述。OSUM-EChat由3个模块组成:语音编码器(带适配器)、文本LLM、token转语音模块,并具备广泛的语音功能,包括各类语音理解任务(语音到文本)、语音合成任务、语音对话任务和文本对话任务。同时,借助内部构造的共情对话数据以及副语言信息推理机制,OSUM-EChat在语音对话任务中能够生成更具共情性的回应。
## 训练与推理指南及OSUM-EChat的更多细节
如需了解OSUM-EChat的更多介绍信息,以及如何使用OSUM-EChat框架进行推理与训练的操作说明,请参考**此处**。
## News and Updates ### 2025年10月29日 🔥 实时对话部署代码现已发布!相关代码提交可查看 [此处](https://github.com/ASLP-lab/Hum-Dial/tree/main/Full-Duplex_Interaction/baseline)。 ### 2025年10月09日 🔥 模型训练代码现已发布!相关代码提交可查看 [此处](https://github.com/ASLP-lab/OSUM/commit/60beb2631d1ce0f0ef18ce791e45cd29793bf9e7)。 ### 2025.8.27 🔥我们开源了OSUM-EChat!OSUM-EChat 的离线推理代码、模型参数、demo页面和体验页面。详情参见**此处**。 模型训练代码、实时对话部署代码、EChat-200K数据及评估数据将于近期开放。 ### 2025.8.14 🎉我们非常荣幸地推出全新端到端共情语音对话模型 ——OSUM-EChat,其相关论文已发布([OSUM-EChat 论文](http://arxiv.org/abs/2508.09600)),代码及模型 checkpoint 将于近期开放。 该模型以 OSUM 语音理解大模型为基础,通过 “理解-生成-共情” 三阶段训练流程,并创新性引入与共情相关的推理机制,在有限语音对话数据条件下,成功实现了业界领先的共情对话能力。据我们所知,这是业界首个依托语音理解大模型构建的共情对话模型,同时也是共情推理领域的开创性研究成果。 我们在共情推理领域进行了两种探索:基于标签的推理和基于自然语言的推理,虽然两种推理机制都带来了性能提升,但我们发现基于自然语言的推理机制能带来更加流畅的回复,也更能促进模型对细微副语言线索的捕捉。当前版本的论文已详细阐述了三阶段训练流程及基于标签的推理机制,后续将在近期更新中补充基于自然语言的推理机制相关内容。
耿雪龙, 魏坤, 邵琪杰, 刘水云*, 林振楠*, 赵致闲*, 李国健*, 田文杰*, 陈培坤, 李泱泽, 郭鹏程, 邵明辰, 王水源, 曹雨昂, 王成有, 徐天翼, 戴宇航, 朱新发, 李越, 张丽, 谢磊†
Huggingface Test Page | Ckpt
📑 Paper (v2.0)    |    📑 Demo    |    💬 WeChat (微信)  
## 训练与推理指南及OSUM的更多细节
如需了解OSUM的更多介绍信息,以及如何使用OSUM框架进行推理与训练的操作说明,请参考**此处**。
## News and Updates ### 2025.10.09 🔥 模型训练代码现已可用!相关的代码提交可在[此处](https://github.com/ASLP-lab/OSUM/commit/60beb2631d1ce0f0ef18ce791e45cd29793bf9e7)查看。 ### 2025.2.16 🎉我们更新了技术报告 [OSUM technical report v2.0](https://arxiv.org/abs/2501.13306v2),并发布了[checkpoint](https://huggingface.co/ASLP-lab/OSUM),以及 Hugging Face 上的在线 [test page](https://huggingface.co/spaces/ASLP-lab/OSUM)。 在技术报告 v2.0 中,OSUM 模型经过了更多的训练步骤,训练数据量增加到了 50.5K 小时(相比 v1.0 的 44.1K 小时): - 3000 小时的语音性别分类(SGC)数据,其中包括 1500 小时的现有数据,通过噪声增强,另有 1500 小时的新数据。 - 说话人年龄预测(SAP)数据扩展:原有的 3400 小时年龄预测数据经过噪声增强,数据量增加到 6800 小时。 ### 2025.1.22 🔥 我们发布了 [OSUM technical report v1.0](https://arxiv.org/abs/2501.13306v1)。