# API_Final
**Repository Path**: crayon-heimi/API_Final
## Basic Information
- **Project Name**: API_Final
- **Description**: API期末项目
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-07-17
- **Last Updated**: 2025-03-19
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
# 学习备忘记录本
| 产品名称 | 学习备忘记录本 |
|---|---|
| PRD文档撰写人 | 刘瑜鹏 |
| 文档版本号 | 迭代3 |
| 迭代diff连结 | [https://gitee.com/crayon-heimi/API_Final/compare/edd9854a9f07410fddf8bd548903ac9bbf4f3c65...master](https://gitee.com/crayon-heimi/API_Final/compare/edd9854a9f07410fddf8bd548903ac9bbf4f3c65...master) |
| 迭代增量改进 | 增量:增加设计的用户可欲性、技术可行性、商业可行性,加入简介;改进:更改人工智能概率性,利害相关者分析,对标题大小进行更改以及标注重要的标题信息|
## MVP加/价值主张宣言
我认为目前市场上对于能够实时语音识别与图片识别文字以及图片翻译进行有效以及高效整合的产品还没有出现,备忘学习记录本 App就是针对该漏洞对现在已有的拍照类App和翻译类App进行整合并加值和优化。其中,该App使用到的人工智能技术有实时语音识别api技术、图片识别文字api技术与图片翻译api技术,这些技术的综合运用能更好更有效的解决学生在开会或者学习做笔记时遇到的困难。
## 简介
在生活节奏如此快的时代,单靠手上的笔是跟不上时代的脚步的,很多学生/上班族经常跟不上老师/上司所讲内容,导致笔记记录不全面,本产品就是根据这些问题进行设计,利用实时语音识别和图片识别文字以及图片翻译进行有效以及高效整合,目的是为了帮助用户解决其困扰,让他们的笔记能够记录的更加完整,本产品使用的实时语音识别技术依靠科大讯飞的核心语音技术,准确率最高可达97.5%以上,百度智能云图片识别文字技术总体识别准确率更是高达99%,因此本产品的设计对于用户来说合理且使用效果高效。
## 问题情境:
### 问题表述
在开会/上课时没精神记不住内容,或者来不及做笔记的时候,特别适合用此产品APP,因为本产品主打实时语音识别,能够快速识别出文字,帮助用户做笔记,除此之外,还提供了智能图片识别文字和翻译的功能,当你在做笔记时遇到有PPT展示内容时,你可以直接拍照得出上面的文字,不需要自己辛辛苦苦的写。
## 用户
### 目标用户
学生、上班族、想学习的社会人士
### 用户画像
* 若图片显示不出来,请点击[此处](https://gitee.com/crayon-heimi/API_Final/blob/master/images/yonghuhuaxiang.png)查看
* 若图片显示不出来,请点击[此处](https://gitee.com/crayon-heimi/API_Final/blob/master/images/yhhx.png)查看
### 使用情景
| 序号 | 使用情景 |
|---|---|
| 使用场景一 | 开会/上课时没精神记不住内容 |
| 使用场景二 | 老师/上司讲太快,来不及做笔记的时候 |
| 使用场景三 | 遇到ppt/书籍有大段文字需要记录 |
| 使用场景四 | 阅读外刊时不了解其主要意思 |
* 图片模板由廖老师提供
* 若图片显示不出来,请点击[此处](https://gitee.com/crayon-heimi/API_Final/blob/master/images/jiazhi.png)查看
## 商业画布
* 图片模板由廖老师提供
* 若图片显示不出来,请点击[此处](https://gitee.com/crayon-heimi/API_Final/blob/master/images/shangye.png)查看
| 优先级 | 需求 | 智能加值 | API类型 | 如何价值 |
|---|---|---|---|---|
| 1.A(重要) | 快速记录会议/课堂内容 | 是,利用实时语音识别api | 讯飞实时语音识别 | 根据用户的输入,将语音转化为文字 |
| 2. A(重要) | 快速提取文字 | 是,利用图片识别文字api技术 | 百度智能云图片识别文字 | 根据图片扫描,提取图片中的文字 |
| 3. B(次要) | 帮助用户理解外文书籍 | 是,利用图片翻译技术 | 有道智云图片翻译 | 选择需要翻译的语言,对所需要翻译的图片进行翻译并呈现出来 |
* 若图片显示不出来,请点击[此处](https://gitee.com/crayon-heimi/API_Final/blob/master/images/naotu.png)查看
### 数据流程图DFD
* 若图片显示不出来,请点击[此处](https://gitee.com/crayon-heimi/API_Final/blob/master/images/dvd.png)查看
### 用户旅程
* 若图片显示不出来,请点击[此处](https://gitee.com/crayon-heimi/API_Final/blob/master/images/yonghucz.png)查看
* 若图片显示不出来,请点击[此处](https://gitee.com/crayon-heimi/API_Final/blob/master/images/jm.png)查看
### 界面流程图---加值输入与输出细节
* 若图片显示不出来,请点击[此处](https://gitee.com/crayon-heimi/API_Final/blob/master/images/jh.png)查看
### 用户操作流程:
1.用户打开本APP,首先会看到赞助商的广告,这里可以选择“跳过”,登录成功后就可以进入本产品主页。
2.本产品主要有两个主页面,一个是“笔记”页(以下直接简称“主页”),一个是“相机”页,另外还有一个隐藏页面“我的”,点击“笔记”主页左上角即可查看。
3.用户记笔记的流程:可以直接点击“+”创建一个新的笔记。
4.按住底部中间“话筒”按钮,即可进行实时语音识别成文字。
5.如果需要上传照片,则可以点击“图片”按钮,可以选择图库上传,也可以现场拍照,这里以现场拍照为例,我们可以选择直接使用所拍照片,也可以切换成“识别文字”页面,在这里,你可以将所拍照片的文字提取出来,你可以选择将它保存在某个笔记里,也可以收藏。
6.除此之外,还可以切换成“拍照翻译”页面,这里你可以选择要翻译的语言,同样,翻译出来的文字也可以选择保存或者收藏。
7.如果你对以上所拍的内容不满意,还可以选择重拍。编辑好笔记内容,你可以点击笔记上方更改笔记名称以及笔记的分类,这样,就不用担心自己的笔记散乱无章啦!
8.退出笔记页面,你就可以在主页看到你刚才所编辑的笔记了,如果你不想保存这个笔记了,也可以点击主页右上角的按钮选择删除。
* 若图片显示不出来,请点击[此处](https://gitee.com/crayon-heimi/API_Final/blob/master/images/xfdj.png)查看
* 若图片显示不出来,请点击[此处](https://gitee.com/crayon-heimi/API_Final/blob/master/images/badj.png)查看
* 若图片显示不出来,请点击[此处](https://gitee.com/crayon-heimi/API_Final/blob/master/images/yddj.png)查看
| 实时语音识别技术优势 | 自然语言翻译技术优势 |
|---|---|
| 1. 个性化输入:对于识别过的专业词汇引擎可将其识别出来,专业用语识别准确率高,方便用户提取准确信息 | 1. 语种丰富:提供27种语言高质量翻译服务,覆盖中、英、日、韩、俄、葡等热门语种,保证用户的学习能够正常进行 |
| 2. 技术优:对于音频流能够实现毫秒级识别,快速将语音转化为文字,能够使用户实时得到内容 | 2. 技术优:支持神经网络翻译,根据用户翻译习惯不断优化翻译结果——提高翻译的准确性 |
| 3. 智能预测:能够智能预测语境,提供智能断句和标点符号的预测,更加人性化地帮助用户做笔记 | 3. 功能丰富:可对图片进行翻译,支持多国语言——保证用户在拍照后能够进行内容翻译 |
| 竞品 | 简介 | 定位 | 功能体验 | 与本产品所用api比较 |
|---|---|---|---|---|
| 百度实时语音识别 | 一款基于Deep Peak2端到端建模,超过10万小时数据训练,多采样率多场景声学建模,近场中文普通话识别准确率达98%的产品 | 1. 多语种识别:支持普通话和略带口音的中文识别;2. 智能语言处理:对识别中间结果进行智能纠错,并根据语音的内容理解和停顿智能匹配合适的标点符号;3. 支持多设备终端,可以适用于多种操作系统、多设备终端均可使用 | 1. 能够音频流实时识别为文字,但是反应时间较长;2. 返回每句话的开始和结束时间,对于笔记而言过于繁杂;3. 适用于长句语音输入、音视频字幕、会议等场景,对于段语句可能识别性不强 | 1.本产品识别速度快,效果领先;2. 本产品支持自动文字训练,能够快速识别出现过的专业词汇;3. 本产品服务稳定高效;4.本产品综合语音能力强 |
| 谷歌翻译 | 一款功能强大的翻译软件,支持多国语言的相互翻译,以及多种输入模式 | 1. 全能型翻译软件。具有近百种语言,满足绝大多数需求;2. 提供更多种输入方式,适合于多种场景;3. 更加适合大篇幅文字的翻译 | 1. 安卓版具有“点击选择翻译区域”的功能,此功能比较适合于单行短小文字的翻译;2. 离线时只能支持实景翻译;3. 即时性并不强 | 1.本产品支持多语种自动识别,适应不明确翻译语种等多复杂场景;2. 本产品翻译精准高效;3. 本产品提供更多元的输入方式,场景多元化 |