Segment Anything Model 2 (SAM 2) 是一个基础模型,旨在解决图像和视频中的可提示视觉分割问题。 将单帧图像视为视频的特殊形式,从而将 SAM 的能力扩展到视频领域。该模型采用简单的 Transformer 架构,并引入流式内存机制以实现实时视频处理。
Fun-Audio-Chat 是一个专为自然、低延迟语音交互打造的大型音频语言模型。它引入了双分辨率语音表征(高效的5Hz共享骨干网络 + 25Hz精细化头部),在保持高语音质量的同时大幅降低计算开销,并采用Core-Cocktail训练策略来保持强大的文本LLM能力。该模型在语音问答、音频理解、语音函数调用、语音指令遵循和语音情感共鸣等基准测试中均取得了顶尖成绩。
Meta开源SAM Audio分割一切声音,Meta 放出音频分割模型 SAM Audio,其通过多模态提示(无论是文本、视觉,还是标注时间片段),让人们能够轻松地从复杂的音频混合中分离出任意声音,从而彻底改变音频处理方式。 SAM Audio 的核心是 Perception Encoder Audiovisual(PE-AV),这是推动其实现业界领先性能的技术引擎。
MiroThinker是MiroMind的旗舰研究代理模型。它是一个开源搜索模型,旨在推进工具增强推理和信息搜索能力,使复杂的现实世界研究工作流程能够跨越各种挑战。
VibeVoice 是微软开源的一款前沿语音 AI 框架,专门用来生成富有表现力、超长时长、多说话人对话音频的框架。支持长达 90 分钟的对话生成,而且,它能让 4 个不同的说话人在同一个音频里聊天,非常适合用来制作 AI 播客、广播剧或者长篇有声读物。
开源项目 agents 是一个专门为 Claude Code 设计的智能自动化和多智能体编排系统。使用这个开源项目, CC 不再是独自面对一个 AI 助手,而是可以根据需要,随时聘请不同的专家团队。比如 63 个插件、85 个智能体、47 个 Skills 等