# 造浪2025AIAgent创新赛

**Repository Path**: want595/AgentCompetition

## Basic Information

- **Project Name**: 造浪2025AIAgent创新赛
- **Description**: 造浪2025AIAgent创新赛 作品提交仓
- **Primary Language**: Unknown
- **License**: MulanPSL-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 23
- **Created**: 2025-12-04
- **Last Updated**: 2025-12-23

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 多语言学习伙伴 - 项目介绍文档

这是一个多语言学习伙伴Agent，旨在为语言学习者提供更好的语言学习体验。

![image](https://cdn.jsdelivr.net/gh/Want595/MarkdownImage@main/image/2025/12/10/17-01-51-7e24e69f11a29e272636b535dc6fe6b0-image-20251210170150798-20e16b.png)

## 🌟 项目概述

这是一款基于Web的多语言学习应用，通过集成AI虚拟人形象和语音识别技术，为用户提供沉浸式的多语言对话练习体验。项目采用前后端分离架构，前端使用Vue 3 + TypeScript构建，后端采用Python Flask + LazyLLM框架，整体技术栈现代且易于部署。

![架构图](https://cdn.jsdelivr.net/gh/Want595/MarkdownImage@main/image/2025/12/10/17-12-00-dc53288ec8d621eff9fcb6d6b877c7a9-架构图-a661c4.png)

项目的核心亮点在于使用了[LazyLLM](https://github.com/LazyAGI/LazyLLM)框架来构建AI对话系统，该框架提供了对多种大语言模型的统一接口支持，并集成了提示词工程、模型管理和对话历史管理等功能。作为开发者，我认为这是项目最具技术价值的部分。

## 💼 商业价值

在教育科技领域，这款产品具有显著的商业潜力：

1. **市场需求旺盛**：随着全球化进程加速，多语言学习需求持续增长，尤其是口语练习场景存在巨大市场空间
2. **技术创新优势**：结合AI虚拟人和大语言模型的技术方案，相比传统语言学习应用具有明显差异化竞争优势
3. **成本效益显著**：基于Web的部署方式降低了用户使用门槛，同时减少了企业运维成本
4. **可扩展性强**：模块化架构设计便于后续功能拓展，可轻松适配不同语言学习场景

## ✨ 核心功能

作为开发者，我在设计这个项目时重点关注以下几个核心功能：

1. **AI虚拟人对话**：应用集成了逼真的数字人形象，能够与用户进行实时互动，让语言练习不再枯燥。这部分通过XmovAvatar SDK实现。
2. **语音识别输入**：支持语音输入功能，用户可以直接说话与AI交流，更贴近真实的语言环境。采用了腾讯云ASR服务。
3. **智能对话系统**：后端基于LazyLLM框架接入了强大的大语言模型（目前使用DeepSeek-V3），能够提供自然流畅的多语言对话体验。LazyLLM提供了统一的模型接口和提示词模板管理，使得模型调用更加便捷高效。
4. **实时字幕显示**：虚拟人在说话时会显示实时字幕，帮助用户更好地理解和学习。
5. **多语言支持**：支持英语、中文、日语、韩语、法语、德语、西班牙语等多种语言的学习和练习。
6. **翻译模式**：除了对话练习外，还提供翻译功能，帮助用户快速翻译文本内容。

## 🎯 技术亮点

作为这个项目的开发者，我想分享一些我觉得比较有技术含量的设计：

- **现代化前端架构**：采用Vue 3 Composition API + TypeScript，代码结构清晰，易于维护和扩展。整个项目遵循Vibe Coding的开发理念，注重代码质量和开发体验。
- **模块化设计**：服务层、状态管理、工具函数等都有良好的分离，遵循了现代前端开发的最佳实践。
- **实时通信机制**：通过WebSocket与虚拟人SDK通信，实现低延迟的交互体验。
- **智能文本处理**：内置了智能句子切分算法，能根据不同语言规则合理分割文本流。这是我花了不少时间优化的部分。
- **LazyLLM集成**：后端服务基于LazyLLM框架构建，集成了Alpaca格式的提示词模板和在线模型调用能力，简化了大语言模型的接入流程。这部分大大减少了我的开发工作量。
- **双模式学习**：支持对话模式和翻译模式，满足不同学习需求。

## 📁 项目结构

```
language_learning_avatar/
├── backend/              # 后端服务
│   ├── app.py           # Flask应用主文件
│   └── requirements.txt # Python依赖
├── src/                 # 前端源码
│   ├── components/      # Vue组件
│   ├── composables/     # Vue组合式函数
│   ├── services/        # 业务服务层
│   ├── stores/          # 状态管理
│   ├── utils/           # 工具函数
│   └── App.vue          # 主应用组件
├── public/              # 静态资源
├── dist/                # 构建产物
├── package.json         # Node.js依赖配置
├── server.js            # Express服务器
├── Dockerfile           # Docker配置
└── README.md            # 项目文档
```

## 🔧 部署说明

### 环境要求

- Node.js >= 16
- Python >= 3.8
- pnpm (推荐) 或 npm
- LazyLLM框架

### 快速开始

#### 方法一：使用Docker

```bash
# 构建镜像
docker build -t language-learning-avatar .

# 运行容器
docker run -p 7860:7860 language-learning-avatar
```

访问 `http://localhost:7860` 即可使用应用。

#### 方法二：本地部署

1. **安装依赖**：
   ```bash
   # 安装LazyLLM库
   pip install lazyllm
   
   # 安装前端依赖
   pnpm install
   ```

2. **构建前端**：
   ```bash
   pnpm run build
   ```

3. **启动服务**：
   ```bash
   # 启动后端（在backend目录下）
   python app.py
   
   # 启动前端（在项目根目录下）
   pnpm run start
   ```

4. **访问应用**：
   打开浏览器访问 `http://localhost:7860`

### 开发模式

如果你想进行二次开发：

```bash
# 启动后端服务
cd backend
python app.py

# 启动前端开发服务器
pnpm run dev
```

访问 `http://localhost:5173` 进入开发模式。

## ⚙️ 配置说明

后端服务需要配置环境变量LAZYLLM_SENSENOVA_API_KEY: LazyLLM服务的API密钥，可在商汤大模型平台获取

## 🛠️ 技术栈

### 前端

- Vue 3 + TypeScript
- Vite 构建工具
- Express.js (生产环境服务器)

### 后端

- Python Flask
- LazyLLM框架
- DeepSeek-V3大语言模型

### 第三方服务

- LazyLLM服务（Sensenova）
- XmovAvatar SDK (虚拟人)
- 腾讯云ASR (语音识别)

## 📱 使用指南

1. **选择学习模式**：在右侧控制面板中选择"对话"或"翻译"模式
2. **选择语言**：选择你想要学习的目标语言
3. **开始练习**：
   - 对话模式：输入文本或点击"语音输入"按钮进行语音对话
   - 翻译模式：输入需要翻译的文本，系统会自动翻译为目标语言
4. **查看历史**：在对话历史区域查看之前的交流记录

## 🐛 常见问题

1. **虚拟人无法显示**：检查网络连接和SDK配置是否正确
2. **语音识别失败**：确认腾讯云ASR服务配置正确且网络通畅
3. **响应缓慢**：可能是模型服务响应较慢，稍等片刻即可

## 📄 许可证

本项目仅作为造浪大赛参赛项目，未经许可，禁止任何形式的商业使用。

## 💡 总结

在教育科技赛道日益火热的今天，这类AI驱动的多语言学习Agent具备广阔的商业化前景，无论是面向个人用户的订阅模式，还是面向教育机构的B2B解决方案，都有着可观的市场机会。