wjh972420394

@wjh972420394

wjh972420394 暂无简介

所有 个人的 我参与的
Forks 暂停/关闭的

    wjh972420394/sam2

    Segment Anything Model 2 (SAM 2) 是一个基础模型,旨在解决图像和视频中的可提示视觉分割问题。 将单帧图像视为视频的特殊形式,从而将 SAM 的能力扩展到视频领域。该模型采用简单的 Transformer 架构,并引入流式内存机制以实现实时视频处理。

    wjh972420394/flowgram.ai

    wjh972420394/mediapipe-gihub

    wjh972420394/openpose-github

    wjh972420394/openpose1.7.0

    wjh972420394/openpose

    wjh972420394/MaxKB

    强大易用的企业级智能体平台

    wjh972420394/jvs-knowledge-ui

    JVS-Knowledge-UI 开源项目教程

    wjh972420394/yolov12

    wjh972420394/Fun-Audio-Chat

    Fun-Audio-Chat 是一个专为自然、低延迟语音交互打造的大型音频语言模型。它引入了双分辨率语音表征(高效的5Hz共享骨干网络 + 25Hz精细化头部),在保持高语音质量的同时大幅降低计算开销,并采用Core-Cocktail训练策略来保持强大的文本LLM能力。该模型在语音问答、音频理解、语音函数调用、语音指令遵循和语音情感共鸣等基准测试中均取得了顶尖成绩。

    wjh972420394/sam-audio

    Meta开源SAM Audio分割一切声音,Meta 放出音频分割模型 SAM Audio,其通过多模态提示(无论是文本、视觉,还是标注时间片段),让人们能够轻松地从复杂的音频混合中分离出任意声音,从而彻底改变音频处理方式。 SAM Audio 的核心是 Perception Encoder Audiovisual(PE-AV),这是推动其实现业界领先性能的技术引擎。

    wjh972420394/MiroThinker

    MiroThinker是MiroMind的旗舰研究代理模型。它是一个开源搜索模型,旨在推进工具增强推理和信息搜索能力,使复杂的现实世界研究工作流程能够跨越各种挑战。

    wjh972420394/VibeVoice

    VibeVoice 是微软开源的一款前沿语音 AI 框架,专门用来生成富有表现力、超长时长、多说话人对话音频的框架。支持长达 90 分钟的对话生成,而且,它能让 4 个不同的说话人在同一个音频里聊天,非常适合用来制作 AI 播客、广播剧或者长篇有声读物。

    wjh972420394/agents

    开源项目 agents 是一个专门为 Claude Code 设计的智能自动化和多智能体编排系统。使用这个开源项目, CC 不再是独自面对一个 AI 助手,而是可以根据需要,随时聘请不同的专家团队。比如 63 个插件、85 个智能体、47 个 Skills 等

    wjh972420394/mediapipe

    wjh972420394/教程hello-agents

    wjh972420394/ultralytics-YOLO v11

    YOLO v11模型

    wjh972420394/IDM-Activation-Script

    wjh972420394/LLaMA-Factory

    wjh972420394/兰州电网图像生成

搜索帮助