# model

**Repository Path**: taozi558/model

## Basic Information

- **Project Name**: model
- **Description**: 重庆大学毕设。。。。。。。。。。。。。。
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 1
- **Created**: 2025-04-03
- **Last Updated**: 2025-06-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README


# 🎯 多模态语音-视觉抓取系统搭建指南

本项目集成了 **YOLOv8-World 开放词汇目标检测**、**Vosk 中文语音识别**、**Argos Translate 离线翻译**，并结合 **工业相机视觉输入** 与 **李群 MS6MT 机械臂控制系统**，实现了从“语音控制”到“机械抓取”的一体化智能操作流程。

---

## 🧱 一、基础环境准备

### 1. 安装 Anaconda

请前往 [Anaconda 官网](https://www.anaconda.com/) 下载并安装对应操作系统版本的 Anaconda。

---

## 🧪 二、创建 Python 虚拟环境

```bash
conda create --name bishe python=3.10
conda activate bishe
```

建议使用 Python 3.10.16，兼容性最佳。

---

## 🔥 三、安装 PyTorch（建议 CUDA 12.1）

```bash
pip install torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 --index-url https://download.pytorch.org/whl/cu121
```

如使用 CPU，可参考 PyTorch 官网提供的安装指令。

---

## 📦 四、安装核心依赖包

```bash
pip install opencv-python opencv-contrib-python
pip install pyaudio vosk argostranslate ultralytics openai-clip
```

| 依赖项 | 说明 |
|--------|------|
| opencv-contrib-python | 提供图像增强、目标跟踪支持 |
| vosk | 中文语音识别（离线） |
| argostranslate | 中文 ➜ 英文离线翻译 |
| ultralytics | YOLO 推理框架 |
| openai-clip | YOLO-World 模型所需 |

---

## 📁 五、模型与资源准备

### 1. YOLO-World 模型权重

- 推荐模型：`yolov8x-worldv2.pt`
- 下载地址：https://github.com/THU-MIG/yolo-world/releases
- 放置路径：`pack/yolov8x-worldv2.pt`

### 2. 中文语音识别模型（VOSK）

- 下载地址：https://alphacephei.com/vosk/models/vosk-model-small-cn-0.22.zip
- 解压路径：`pack/vosk-model-small-cn-0.22/`

### 3. 中文 ➜ 英文翻译包（Argos Translate）

- 下载链接：https://www.argosopentech.com/argospm/index/
- 示例模型：https://argos-opentech.nyc3.digitaloceanspaces.com/translate-zh_en-1_9.argosmodel
- 放置路径：`pack/translate-zh_en-1_9.argosmodel`

安装方法如下：

```python
import argostranslate.package
argostranslate.package.install_from_path("路径/translate-zh_en-1_9.argosmodel")
```

---

## 🚀 六、系统运行方式

确保当前目录下包含：

```text
grasp_integration.py
pack/
├── yolov8l-worldv2.pt
├── vosk-model-small-cn-0.22/
├── translate-zh_en-1_9.argosmodel
├── MvCameraControl_class.py等海康威视工业相机SDK
homography_matrix.npy   # 单应性矩阵（需标定生成）
```
同时，机器人与相机需要完成标定
---

## 🧠 七、系统核心功能说明

| 模块 | 功能说明 |
|------|----------|
| 🎙️ 离线语音识别 | 支持“小桃小桃 抓取XXX”+“开始”指令，分阶段执行 |
| 🌐 中文翻译 | 使用 Argos Translate 实现目标名翻译 |
| 📦 YOLO-World 开放词汇检测 | 融合CLIP，动态设置文本类别 |
| 📷 工业相机采集 | 支持 HikRobot 工业相机 SDK，自动曝光 + LAB 增强 |
| 🧩 中心点提取 | 自动检测匹配目标，提取图像中心坐标 |
| 📐 手眼标定 ➜ 像素坐标 → 世界坐标 | 使用 3×3 单应性矩阵 H 变换 |
| 🤖 Socket 控制机械臂 | 指令集对接李群 MS6MT，包括回零、上下移动等 |
| 🔧 蓝牙串口控制夹爪 | 发送二进制控制指令（夹取：0x01，松开：0x02） |
| 🔁 多线程语音监听 | 语音识别与视觉检测解耦，异步协同 |
| 🧠 容错机制 | 支持抓取范围判断、检测失败重试、2秒等待超时 |

---

## 📊 八、运行交互流程

1. 系统初始化后自动监听麦克风；
2. 说出：“小桃小桃 抓取苹果”，设定目标；
3. 系统翻译“苹果”为“apple”并设定检测类别；
4. 说出“开始”，系统检测画面、提取坐标、控制机械臂抓取；
5. 自动完成抓取 ➜ 放置 ➜ 松爪 ➜ 回零

---

## 🛠️ 九、常见问题解决

- ❓**语音识别无响应？**
  - 检查麦克风权限、驱动是否正常
- ❓**语音目标设定失败？**
  - 检查语音中是否包含“抓取XXX”格式
- ❓**检测失败？**
  - 当前画面中目标不明显，尝试换角度或重设目标
- ❓**连接失败？**
  - 检查 socket 地址、蓝牙串口号（如 COM3）是否正确
- ❓**抓取偏移？**
  - 检查标定矩阵 homography_matrix.npy 是否准确

---

## 📚 十、参考资料

- YOLO-World: https://github.com/THU-MIG/yolo-world
- VOSK 中文模型: https://alphacephei.com/vosk/
- Argos Translate: https://www.argosopentech.com/
- 李群机器人: https://www.lqrobot.com