# capture_word **Repository Path**: jay050315/capture_word ## Basic Information - **Project Name**: capture_word - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-03-07 - **Last Updated**: 2026-03-09 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 拍照记单词 ## AI 时代 - vibecoding 代码和项目开发快速且靠谱 - opc one person company 创意、规划、商业、共情 更重要 大厂更需要 会vibecoding的ai产品经理 ## 单词类APP - 市场调研 - 百词斩 细分领域 背单词 单词和图片 结合起来 记忆单词 awkward 尴尬的 - 扇贝 智能间隔重复算法 精准规划复习时间,确保单词即将遗忘时被强化,长期记忆 ## 大模型 - 互联网所有的产品值得用AI重新做一遍 - 结合大模型做AIGC - Agent - 拍照记单词 - 产品点? - 需求 - 场景 跨国生活、旅游、点餐 - 解决了什么痛点? 足够痛 强需求 ## 产品原型 - 拍照/上传图片 - 调用kimi 接口 解析图片,得到单词和例句 - 点击播放按钮 ## 设计搞 ## 大模型 - 多模态模型 kimi-shot moonshot-v1-8k-vision-preview - tts 文本转语音 ### 技术栈 - 前端 vue3+ts - 后端 nestjs ## 开发 ### 产品亮点 - 无障碍访问 label + for + input#id 帮助使用读屏器的盲人使用 input[type="file"] 比较难控制样式 display: none,for id 样式控制 - prompt 设计 - AIGC 产品里 Prompt 设计是比较核心的 - 清晰的指令 一个单词,A1~A2 级别 - outputParser 输出格式 JSON ,有利于业务的持续执行 - 产品的设计 对齐 - 多模态模型的接口标准 content 数组 每个元素是一个对象,对象有 type 和 text 两个属性 图片 base64格式 字符编码(html5) - 文件的上传体验 - type="file" input + accept="image/*" 约束只能上传图片 - 上传图片需要时间,即时显示图片 - FileReader 在没有上传之前 js 读取本地文件、调用摄像头能力 - readDataAsURL(file) - onload base64