仓库 - wjh972420394 (wjh972420394) - Gitee.com

全部公开的 45 私有的 0

1

0

0

wjh972420394/sam2

Segment Anything Model 2 (SAM 2) 是一个基础模型，旨在解决图像和视频中的可提示视觉分割问题。将单帧图像视为视频的特殊形式，从而将 SAM 的能力扩展到视频领域。该模型采用简单的 Transformer 架构，并引入流式内存机制以实现实时视频处理。

最近更新：19天前

1

0

0

wjh972420394/flowgram.ai

最近更新：1个月前

1

0

0

wjh972420394/mediapipe-gihub

最近更新：1个月前

1

0

0

wjh972420394/openpose-github

最近更新：1个月前

1

0

0

wjh972420394/openpose1.7.0

最近更新：1个月前

1

0

0

wjh972420394/openpose

最近更新：1个月前

1

0

0

wjh972420394/MaxKB

强大易用的企业级智能体平台

最近更新：2个月前

1

0

0

wjh972420394/jvs-knowledge-ui

JVS-Knowledge-UI 开源项目教程

最近更新：3个月前

1

0

0

wjh972420394/yolov12

最近更新：3个月前

1

0

1

wjh972420394/Fun-Audio-Chat

Fun-Audio-Chat 是一个专为自然、低延迟语音交互打造的大型音频语言模型。它引入了双分辨率语音表征（高效的5Hz共享骨干网络 + 25Hz精细化头部），在保持高语音质量的同时大幅降低计算开销，并采用Core-Cocktail训练策略来保持强大的文本LLM能力。该模型在语音问答、音频理解、语音函数调用、语音指令遵循和语音情感共鸣等基准测试中均取得了顶尖成绩。

最近更新：3个月前

1

0

0

wjh972420394/sam-audio

Meta开源SAM Audio分割一切声音，Meta 放出音频分割模型 SAM Audio，其通过多模态提示（无论是文本、视觉，还是标注时间片段），让人们能够轻松地从复杂的音频混合中分离出任意声音，从而彻底改变音频处理方式。 SAM Audio 的核心是 Perception Encoder Audiovisual（PE-AV），这是推动其实现业界领先性能的技术引擎。

最近更新：3个月前

1

0

0

wjh972420394/MiroThinker

MiroThinker是MiroMind的旗舰研究代理模型。它是一个开源搜索模型，旨在推进工具增强推理和信息搜索能力，使复杂的现实世界研究工作流程能够跨越各种挑战。

最近更新：3个月前

1

0

0

wjh972420394/VibeVoice

VibeVoice 是微软开源的一款前沿语音 AI 框架，专门用来生成富有表现力、超长时长、多说话人对话音频的框架。支持长达 90 分钟的对话生成，而且，它能让 4 个不同的说话人在同一个音频里聊天，非常适合用来制作 AI 播客、广播剧或者长篇有声读物。

最近更新：4个月前

1

1

0

wjh972420394/agents

开源项目 agents 是一个专门为 Claude Code 设计的智能自动化和多智能体编排系统。使用这个开源项目， CC 不再是独自面对一个 AI 助手，而是可以根据需要，随时聘请不同的专家团队。比如 63 个插件、85 个智能体、47 个 Skills 等

最近更新：4个月前

1

0

0

wjh972420394/mediapipe

最近更新：4个月前

1

0

0

wjh972420394/教程hello-agents

最近更新：4个月前

1

0

0

wjh972420394/ultralytics-YOLO v11

YOLO v11模型

最近更新：8个月前

1

0

0

wjh972420394/IDM-Activation-Script

最近更新：8个月前

1

0

0

wjh972420394/LLaMA-Factory

最近更新：9个月前

1

0

0

wjh972420394/兰州电网图像生成

最近更新：9个月前