# model **Repository Path**: taozi558/model ## Basic Information - **Project Name**: model - **Description**: 重庆大学毕设。。。。。。。。。。。。。。 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2025-04-03 - **Last Updated**: 2025-06-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 🎯 多模态语音-视觉抓取系统搭建指南 本项目集成了 **YOLOv8-World 开放词汇目标检测**、**Vosk 中文语音识别**、**Argos Translate 离线翻译**,并结合 **工业相机视觉输入** 与 **李群 MS6MT 机械臂控制系统**,实现了从“语音控制”到“机械抓取”的一体化智能操作流程。 --- ## 🧱 一、基础环境准备 ### 1. 安装 Anaconda 请前往 [Anaconda 官网](https://www.anaconda.com/) 下载并安装对应操作系统版本的 Anaconda。 --- ## 🧪 二、创建 Python 虚拟环境 ```bash conda create --name bishe python=3.10 conda activate bishe ``` 建议使用 Python 3.10.16,兼容性最佳。 --- ## 🔥 三、安装 PyTorch(建议 CUDA 12.1) ```bash pip install torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 --index-url https://download.pytorch.org/whl/cu121 ``` 如使用 CPU,可参考 PyTorch 官网提供的安装指令。 --- ## 📦 四、安装核心依赖包 ```bash pip install opencv-python opencv-contrib-python pip install pyaudio vosk argostranslate ultralytics openai-clip ``` | 依赖项 | 说明 | |--------|------| | opencv-contrib-python | 提供图像增强、目标跟踪支持 | | vosk | 中文语音识别(离线) | | argostranslate | 中文 ➜ 英文离线翻译 | | ultralytics | YOLO 推理框架 | | openai-clip | YOLO-World 模型所需 | --- ## 📁 五、模型与资源准备 ### 1. YOLO-World 模型权重 - 推荐模型:`yolov8x-worldv2.pt` - 下载地址:https://github.com/THU-MIG/yolo-world/releases - 放置路径:`pack/yolov8x-worldv2.pt` ### 2. 中文语音识别模型(VOSK) - 下载地址:https://alphacephei.com/vosk/models/vosk-model-small-cn-0.22.zip - 解压路径:`pack/vosk-model-small-cn-0.22/` ### 3. 中文 ➜ 英文翻译包(Argos Translate) - 下载链接:https://www.argosopentech.com/argospm/index/ - 示例模型:https://argos-opentech.nyc3.digitaloceanspaces.com/translate-zh_en-1_9.argosmodel - 放置路径:`pack/translate-zh_en-1_9.argosmodel` 安装方法如下: ```python import argostranslate.package argostranslate.package.install_from_path("路径/translate-zh_en-1_9.argosmodel") ``` --- ## 🚀 六、系统运行方式 确保当前目录下包含: ```text grasp_integration.py pack/ ├── yolov8l-worldv2.pt ├── vosk-model-small-cn-0.22/ ├── translate-zh_en-1_9.argosmodel ├── MvCameraControl_class.py等海康威视工业相机SDK homography_matrix.npy # 单应性矩阵(需标定生成) ``` 同时,机器人与相机需要完成标定 --- ## 🧠 七、系统核心功能说明 | 模块 | 功能说明 | |------|----------| | 🎙️ 离线语音识别 | 支持“小桃小桃 抓取XXX”+“开始”指令,分阶段执行 | | 🌐 中文翻译 | 使用 Argos Translate 实现目标名翻译 | | 📦 YOLO-World 开放词汇检测 | 融合CLIP,动态设置文本类别 | | 📷 工业相机采集 | 支持 HikRobot 工业相机 SDK,自动曝光 + LAB 增强 | | 🧩 中心点提取 | 自动检测匹配目标,提取图像中心坐标 | | 📐 手眼标定 ➜ 像素坐标 → 世界坐标 | 使用 3×3 单应性矩阵 H 变换 | | 🤖 Socket 控制机械臂 | 指令集对接李群 MS6MT,包括回零、上下移动等 | | 🔧 蓝牙串口控制夹爪 | 发送二进制控制指令(夹取:0x01,松开:0x02) | | 🔁 多线程语音监听 | 语音识别与视觉检测解耦,异步协同 | | 🧠 容错机制 | 支持抓取范围判断、检测失败重试、2秒等待超时 | --- ## 📊 八、运行交互流程 1. 系统初始化后自动监听麦克风; 2. 说出:“小桃小桃 抓取苹果”,设定目标; 3. 系统翻译“苹果”为“apple”并设定检测类别; 4. 说出“开始”,系统检测画面、提取坐标、控制机械臂抓取; 5. 自动完成抓取 ➜ 放置 ➜ 松爪 ➜ 回零 --- ## 🛠️ 九、常见问题解决 - ❓**语音识别无响应?** - 检查麦克风权限、驱动是否正常 - ❓**语音目标设定失败?** - 检查语音中是否包含“抓取XXX”格式 - ❓**检测失败?** - 当前画面中目标不明显,尝试换角度或重设目标 - ❓**连接失败?** - 检查 socket 地址、蓝牙串口号(如 COM3)是否正确 - ❓**抓取偏移?** - 检查标定矩阵 homography_matrix.npy 是否准确 --- ## 📚 十、参考资料 - YOLO-World: https://github.com/THU-MIG/yolo-world - VOSK 中文模型: https://alphacephei.com/vosk/ - Argos Translate: https://www.argosopentech.com/ - 李群机器人: https://www.lqrobot.com