# SeeWord **Repository Path**: brandy-empty-bottle/see-word ## Basic Information - **Project Name**: SeeWord - **Description**: 一款基于生成式 AI 的现代化视觉语言学习应用。区别于传统翻译工具,该项目通过多模态识别(OCR + 物体检测)将图片实时转化为“有声单词卡”,提供权威词典风格的释义与双语朗读功能。 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-03-13 - **Last Updated**: 2026-03-13 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 见词 (SeeWord) 这是一个基于 **Vue 3 + TypeScript** 开发的现代化 AI 视觉语言学习应用。它不仅仅是一个 OCR 翻译器,更是一个**智能的视觉单词本**。通过拍照或上传图片,应用能自动识别图片中的文字或物体,提供**权威词典风格**的释义,并配合**高质量双语发音**,帮助用户在真实场景中高效学习英语。 ## 核心功能 (Core Features) ### 1.双模态智能识别 (Dual-Mode Recognition) - **OCR 文字提取**: 自动检测图片中的英文文本,提取并翻译。 - **物体智能识别**: 如果图片中没有明显文字,AI 会自动识别图中的核心物体(如“南瓜”、“猫”),并提供对应的英文单词。 ### 2.词典级专业释义 (Dictionary-Style Definitions) - **极简风格**: 摒弃冗长的机器翻译感,提供类似纸质词典的**精简释义**。 - **词性标注**: 明确标注词性(如 `n.` 名词, `vt.` 动词, `adj.` 形容词),帮助用户准确掌握用法。 - **核心词义**: 智能提炼最核心的中文含义,一目了然。 ### 3. 沉浸式语音体验 (Immersive Audio) - **Volcano TTS 引擎**: 集成字节跳动火山引擎 TTS,提供极其自然的拟人发音。 - **智能语种切换**: - 英文原文使用地道的美式/英式发音。 - 中文释义使用清晰的标准普通话。 - **无感加载与缓存**: 内置音频缓存机制和 Loading 状态反馈,首次播放后再次点击**0延迟**,体验丝般顺滑。 ### 4.原生级交互设计 (Native-Like UI) - **可拖拽详情页**: 底部详情面板支持**手势拖拽**(Bottom Sheet),可上滑查看更多、下滑关闭,手感媲美原生 App。 - **动态交互**: 精心设计的卡片动画、加载沙漏(⏳)和播放状态反馈。 - **现代化 UI**: 采用纯白卡片、圆润边框和细腻阴影,视觉风格清新现代。 --- ## 技术栈 (Tech Stack) 本项目采用前沿的前端技术栈构建,注重性能与开发体验: - **前端框架**: [Vue 3](https://vuejs.org/) (Composition API + Script Setup) - **语言**: [TypeScript](https://www.typescriptlang.org/) (全类型覆盖,开发更安全) - **构建工具**: [Vite](https://vitejs.dev/) (秒级热更新) - **样式**: CSS3 (Flexbox/Grid, CSS Variables, Transitions) - **AI 服务**: - **视觉模型**: Moonshot AI (Kimi) `moonshot-v1-8k-vision-preview` —— 负责图像理解与内容生成。 - **语音合成**: ByteDance Volcano TTS (火山引擎) —— 负责高质量语音生成。 --- ## 快速开始 (Getting Started) ### 1. 环境准备 确保本地已安装 [Node.js](https://nodejs.org/) (v16+)。 ### 2. 安装依赖 ```bash npm install # 或者 pnpm install ``` ### 3. 配置环境变量 在项目根目录下新建 `.env` 文件,填入你的 API Key: ```env # Moonshot AI (Kimi) 配置 VITE_KIMI_API_ENDPOINT=https://api.moonshot.cn/v1 VITE_KIMI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx # 火山引擎 TTS 配置 VITE_AUDIO_APP_ID=your_app_id VITE_AUDIO_ACCESS_TOKEN=your_access_token VITE_AUDIO_CLUSTER_ID=volcano_tts # 默认英文音色 (中文音色代码中已自动处理) VITE_AUDIO_VOICE_NAME=BV001_streaming ``` ### 4. 启动开发服务器 ```bash npm run dev ``` 打开浏览器访问 `http://localhost:5173` 即可开始使用。 --- ## 项目结构 (Project Structure) ``` src/ ├── components/ │ └── PictureCard.vue # 核心组件:图片展示、上传交互、重新上传提示 ├── lib/ │ └── audio.ts # 音频核心库:封装 TTS API、Base64 转 Blob、音色管理 ├── App.vue # 主应用:包含 AI 调用逻辑、状态管理、拖拽面板实现 ├── assets/ # 静态资源 (图标、默认图片) └── main.ts # 入口文件 ``` ## 开发心得 本项目展示了如何将**生成式 AI (AIGC)** 能力落地到具体的前端场景中。通过精心打磨的 Prompt 工程和细致的 UI 交互优化,将冷冰冰的 API 变成了有温度的学习工具。