# API_ML_AI_final project **Repository Path**: ZhengFenglin/api_-ml_-ai_final-project ## Basic Information - **Project Name**: API_ML_AI_final project - **Description**: No description available - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-01-11 - **Last Updated**: 2021-01-24 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 项目名称:即刻记录 ———新理念云笔记APP # 产品简介 | 文档名称 | 即刻记录-产品需求文档 | | --- | --- | | 产品名称 | 即刻记录/Recorder | | 产品描述 | 一款集智能语音识别、智能图片识字功能来帮助人们记录会议、记录课堂学习、记录生活的APP | | 文件作者 | 郑枫霖 | * [语音旁白讲述](https://b23.tv/U1nrlv) ## 一、MVP价值主张 ### (一)加值宣言 - “记下重点、记录生活”。在日常生活中,我们经常会将会议或者课堂上的重点记录下来,此外,我们还喜欢记录生活中的点滴。 - 就目前而言,市场上对于会议、学习、生活实时记录的软件较少。存在着重点记漏、记岔,用备忘录记录更换移动设备时记录内容不能实时更新,备忘录形式单一等用户痛点。 - 即刻记录 APP 就是针对这些痛点对现在已有的笔记记录APP和团队协作类APP进行整合并加值和优化。即刻记录针对用户痛点,满足用户需求,利用智能语音识别、通用文字识别等API功能,可以帮助人们记录会议重要事项、记录课堂学习重要内容、记录生活中的美好。 ### (二)核心价值(最小可行性产品) - 利用实时语音识别与通用文字识别两项API功能,可以帮助人们记录会议重要事项、记录课堂学习重要内容、记录生活中的美好。 - 即刻记录着重为需要及时快速记录笔记/重要内容的用户提供最佳的高效记录方式。 ### (三)API价值宣言 - 语音识别API加值:使用实时语音识别,用户可以实时将对方的讲话转换成文字,帮助用户记录笔记,从而提高用户工作/学习效率。 - 通用文字识别API加值:使用通用文字识别API,用户可以实时识别该语种并提取图片中的文本。 ### (四)人工智能概率性 - 人类社会随着技术的不断革新会发生很大的变革,人工智能时代的到来将会引起社会的变化,人工智能为社会创造了极大的价值。 - 即刻记录 APP利用智能语音识别、智能图片识字、智能翻译api等功能,帮助人们“记录”,满足人群的记录需求,具有着较大的吸引力 ### (五)问题及解决方案说明 问题|解决方案| ---- | ---- 用户记录内容大多记录在备忘录,受移动设备的依赖性强|登陆软件则进行云端备份,退出时自动保存 用户在课堂学习或者开展会议时会记漏某些重点|全程录音,便于用户重点的“复盘”并且记录 用户在某些不适合听录音进行“复盘”又急需进行这一事项|智能语音识帮助用户解决问题并节省“复听”的时间 用户在记录笔记时速度慢,一些在ppt上的内容重新“码下来”效率不高|上传ppt图片,利用通用文字识别API功能得到文字,提高效率 ### (六)价值主张画布展示 ![](https://gitee.com/ZhengFenglin/api_-ml_-ai_final-project/raw/master/img/%E4%BB%B7%E5%80%BC%E4%B8%BB%E5%BC%A0%E7%94%BB%E5%B8%831.png) ![](https://gitee.com/ZhengFenglin/api_-ml_-ai_final-project/raw/master/img/%E4%BB%B7%E5%80%BC%E4%B8%BB%E5%BC%A0%E7%94%BB%E5%B8%832.png) *** ## 二、问题需求 ### (一)用户画像&使用情景 ![](https://gitee.com/ZhengFenglin/api_-ml_-ai_final-project/raw/master/img/%E7%94%A8%E6%88%B7%E7%94%BB%E5%83%8F1.jpg) ![](https://gitee.com/ZhengFenglin/api_-ml_-ai_final-project/raw/master/img/%E7%94%A8%E6%88%B7%E7%94%BB%E5%83%8F2.jpg) ![](https://gitee.com/ZhengFenglin/api_-ml_-ai_final-project/raw/master/img/%E7%94%A8%E6%88%B7%E7%94%BB%E5%83%8F3.jpg) ### (三)需求列表与人工智能API加值 | 序号 | API技术 | 用户场景 | 优先级| | --- | --- | --- | --- | | 1 | 实时语音识别API | 通过设备麦克风录音进行实时语音识别,转换成文字 | A(重要) | | 2 | 通用文字识别API | 通过拍照快速将图片里的文字识别并转换成文字 | B(次重要) | ### (四)利害相关者分析(图示) ![](https://gitee.com/ZhengFenglin/api_-ml_-ai_final-project/raw/master/img/%E5%88%A9%E5%AE%B3%E7%9B%B8%E5%85%B3%E8%80%85%E5%88%86%E6%9E%90.png) *** ## 三、解决方案:界面流程及关键智能交互 ### (一)用户旅程图(图示) ![](https://gitee.com/ZhengFenglin/api_-ml_-ai_final-project/raw/master/img/%E7%94%A8%E6%88%B7%E6%97%85%E7%A8%8B%E5%9C%B0%E5%9B%BE.jpg) ### (二)关键智能API思路方法 #### 1. 用户可欲性 - 功能基本满足目标用户需求,用户可欲性强 - 除解决图片文字识别和实时语音识别功能外还融合提供云存储、本地存储功能,后续还将提供思维导图功能 #### 2. 商业可行性 - 智能识别市场广阔,实时语音识别云笔记APP较少,发展前景广阔 #### 3. 技术可行性 - 有相关的AI开放平台提供API服务,可直接调用,且技术成熟稳定(但部分API可能需要付费) - 该产品API存在一定的技术风险,如用户数据泄露,仍需做好后台数据库安全工作,不断提高安全等级 - 对比多家API平台,选择了较为精确稳定的API对产品进行智能加值 ### (三)加值输入/输出细节描述 - 用户需进行简单的注册,注册完毕后显示登陆界面。从登陆界面进入到最新页面,可以在最新页面查看两种类型的笔记(普通编辑文字笔记和语音&语音转换文字笔记)。点击普通编辑文字笔记,其中拍照取词功能方便用户;点击录音界面进行语音&语音转换文字笔记则可进行语音实时转换的便利服务;点击我的界面则可以进入到会员、收藏、分享等多个副页面。使用完毕后则退出使用,用户记录内容与用户个人信息在云端保存。 ### (四)界面流程图突出智能交互 #### 1. 交互及界面设计 ![](https://gitee.com/ZhengFenglin/api_-ml_-ai_final-project/raw/master/img/%E7%95%8C%E9%9D%A2%E8%AE%BE%E8%AE%A11.PNG) ![](https://gitee.com/ZhengFenglin/api_-ml_-ai_final-project/raw/master/img/%E7%95%8C%E9%9D%A2%E8%AE%BE%E8%AE%A12.PNG) ![](https://gitee.com/ZhengFenglin/api_-ml_-ai_final-project/raw/master/img/%E7%95%8C%E9%9D%A2%E8%AE%BE%E8%AE%A13.PNG) ![](https://gitee.com/ZhengFenglin/api_-ml_-ai_final-project/raw/master/img/%E7%95%8C%E9%9D%A2%E8%AE%BE%E8%AE%A14.PNG) ![](https://gitee.com/ZhengFenglin/api_-ml_-ai_final-project/raw/master/img/%E7%95%8C%E9%9D%A2%E8%AE%BE%E8%AE%A15.PNG) ![](https://gitee.com/ZhengFenglin/api_-ml_-ai_final-project/raw/master/img/%E7%95%8C%E9%9D%A2%E8%AE%BE%E8%AE%A16.PNG) ![](https://gitee.com/ZhengFenglin/api_-ml_-ai_final-project/raw/master/img/%E7%95%8C%E9%9D%A2%E8%AE%BE%E8%AE%A17.PNG) #### 2. 即刻记录交互演示链接 #### [点我,我是链接](https://modao.cc/app/ff1ab3ba3f2d3140a8ea7f44d878804e84822ce9?simulator_type=device&sticky) *** ## 四、解决方案:数据流程及关键智能API使用 ### (一)数据分析流程图&用户界面流程化 ![](https://gitee.com/ZhengFenglin/api_-ml_-ai_final-project/raw/master/img/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E6%B5%81%E7%A8%8B%E5%9B%BE&%E7%95%8C%E9%9D%A2%E6%B5%81%E7%A8%8B%E5%8C%96.png) ### (二) 数据流程设计 #### 1. 用户可欲性 即刻记录的用户定位在16-50岁需要用到云笔记APP记录的用户,这些用户通常包括学生、公司文员、媒体记者、访谈人、商务人士等,他们需要一个更加便捷的云笔记APP提高工作效率,满足自己的需求。 #### 2. 技术可行性 通过调用API,即刻记录可以为用户提供OCR服务和实时语音转写服务。 #### 3. 商业可行性 即刻记录融资需求不高,只需打造线上平台即可,与百度AI平台达成合作关系,为调用的API付费,成本较低,商业可行性高。 ### (三) 代码及数据展示加值 #### API使用 ##### A.通用文字识别 - 接口描述 基于业界领先的深度学习技术,提供多场景、多语种、高精度的整图文字检测和识别服务,多项ICDAR指标居世界第一。 - 相关链接:https://ai.baidu.com/tech/ocr/general - 接口地址: https://aip.baidubce.com/rest/2.0/ocr/v1/general_basic - 请求方式:POST - 输入代码/输出代码示例 ![](https://gitee.com/ZhengFenglin/api_-ml_-ai_final-project/raw/master/img/%E9%80%9A%E7%94%A8%E6%96%87%E5%AD%97%E8%AF%86%E5%88%AB%E8%B0%83%E7%94%A8.png) ##### B.实时语音识别 - 接口描述 实时语音转写接口采用websocket协议的连接方式,边上传音频边获取识别结果。可以将音频流实时识别为文字,并返回每句话的开始和结束时间,适用于长句语音输入、音视频字幕、会议等场景。 - 相关链接:https://ai.baidu.com/tech/speech/realtime_asr - 运行流程 - 连接 - 连接成功后发送数据 - 2.1 发送开始参数帧 - 2.2 实时发送音频数据帧 - 2.3 库接收识别结果 - 2.4 发送结束帧 - 关闭连接 - 输入代码/输出代码示例 - 运行文档说明 ![](https://gitee.com/ZhengFenglin/api_-ml_-ai_final-project/raw/master/img/%E5%AE%9E%E6%97%B6%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB%E8%B0%83%E7%94%A81.png) - 输出 ![](https://gitee.com/ZhengFenglin/api_-ml_-ai_final-project/raw/master/img/%E5%AE%9E%E6%97%B6%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB%E8%B0%83%E7%94%A82.png) #### 2.API对比 ##### A.实时语音识别real_asr - [科大讯飞real_asr](https://www.xfyun.cn/services/rtasr) 通过体验科大讯飞的实时语音转写发现,讯飞语音读取过程的清晰度做的较好,准确度高,支持个性化热词、上下文纠错、标点智能预测的功能,但与百度相比,科大讯飞只能识别中文普通话这一语种,而百度增加了英语语种,且适用场景更加广泛。 - [百度real_asr](https://ai.baidu.com/tech/speech/realtime_asr) 通过体验百度AI开放平台的实时语音识别发现,该语音识别的准确率较高,较能满足用户的个性化需求,但是对周围环境较高(如要求环境需较安静且不能有背景音乐)。 - 总体分析 - 总而言之,百度AI的实时语音识别更胜一筹,其识别速 度、准确率较高,且在识别语种上更加丰富,同时还支持用户自训练语音模型,满足了用户多场景下的使用,更加符合用户需求,因此最后选择了百度AI实时语音识别融入到本产品中。 ##### B.通用文字识别 - [百度OCR](https://ai.baidu.com/tech/ocr/general) 百度AI平台的通用文字识别版本类型较多,其中包含位置信息版,可方便用户进行版式的二次处理,同时高精度版添加了识别生僻字功能,满足了用户多场景需求。 - [腾讯OCR](https://cloud.tencent.com/product/generalocr?fromSource=gwzcw.3561161.3561161.3561161&utm_medium=cpc&utm_id=gwzcw.3561161.3561161.3561161) 腾讯AI平台的通用文字识别功能较广泛,其中包括通用手写体识别功能。通过体验其功能,发现腾讯AI平台通用文字识别功能精确度较高,且只需提供一张带文字的图片即可,而百度需要自己手动设置语音种类等参数。 - 总体分析 - 百度AI和腾讯AI的通用文字识别功能可支持识别的语种丰富,但是百度此功能含有生僻字识别,更能满足用户的需求多样性,更符合用户需求,提升用户体验感,因而选择了百度AI平台的通用文字识别功能融入此产品。 #### 3.API价格 ##### 实时语音识别价格 - [相关链接](https://ai.baidu.com/ai-doc/SPEECH/ck38lxnx8#%E5%AE%9E%E6%97%B6%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB%E8%AE%A1%E8%B4%B9%E7%AE%80%E4%BB%8B) ![](https://gitee.com/ZhengFenglin/api_-ml_-ai_final-project/raw/master/img/%E5%AE%9E%E6%97%B6%E8%AF%AD%E9%9F%B3%E4%BB%B7%E6%A0%BC1.png) ![](https://gitee.com/ZhengFenglin/api_-ml_-ai_final-project/raw/master/img/%E5%AE%9E%E6%97%B6%E8%AF%AD%E9%9F%B3%E4%BB%B7%E6%A0%BC2.png) ##### 通用文字识别价格 - [相关链接](https://ai.baidu.com/ai-doc/OCR/9k3h7xuv6#%E9%80%9A%E7%94%A8%E6%96%87%E5%AD%97%E8%AF%86%E5%88%AB) ![](https://gitee.com/ZhengFenglin/api_-ml_-ai_final-project/raw/master/img/%E6%96%87%E5%AD%97%E8%AF%86%E5%88%AB%E4%BB%B7%E6%A0%BC.png) #### 4.竞品分析 | 竞品 | 简介 | 产品定位 | 功能体验 | 优势 | 缺点 | | --- | --- | --- | --- | --- | --- | | 有道云笔记 | 有道云笔记是网易旗下的有道推出的个人与团队的线上资料库。有道云笔记采用了增量式同步技术,即每次只同步修改的内容而不是整个笔记。 | 有道云笔记在产品的功能定位上就是以知识、资源管理以及协作为主的一款应用。 | 易于注册(有道云笔记提供了六种额外的登录途径);笔记易用性,还可在线预览工作常用的office文件;数据的存储边界且安全,对用户笔记的隐私和安全都有一定程度的保证。 | 协作功能,多用户可以同时编辑并且相互沟通。 | 笔记编辑形式较少,用户使用文档编辑时能够使用的种类少,不够丰富;编辑功能提示未出现在一级页面。 | | 讯飞语记 | 讯飞语记是一款说话就能变文字输入的云笔记,写文章、写日记、记者采访、会议记录、课堂笔记、记事的app。 | 讯飞语记在产品功能定位上是一款录音转文字的效率工具。 | 录音过程中,实现边说边转,实时出现文字结果(实时结果位预览模式);导入音频并将其转换为文字,快速精准,可自动断句;在转文字执行结束后,可对其转换结果进行编辑修改,随时随地,边听边改。 | 界面简单清晰,易于用户操作;录音过程中返回手机界面依旧具备续录功能;实时转写结果评估准确率高。 | 实时转写需要付费,普通用户仅使用5分钟。 | ### (四)数据流程图文展示加值 ![](https://gitee.com/ZhengFenglin/api_-ml_-ai_final-project/raw/master/img/%E4%B8%BB%E8%A6%81%E4%BA%A4%E4%BA%92%E5%8A%9F%E8%83%BD%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E6%B5%81%E7%A8%8B%E5%9B%BE.png) ![](https://gitee.com/ZhengFenglin/api_-ml_-ai_final-project/raw/master/img/%E6%99%BA%E8%83%BDAPI%E5%8A%A0%E5%80%BC%E6%95%B0%E6%8D%AE%E7%BB%86%E8%8A%82.png) ### (五)人工智能概率性考量 #### 1. 人工智能概率: #### 百度AI开放平台的实时语音识别API技术和通用文字识别API技术,有以下优势: | 实时语音识别技术优势 | 用户痛点 | 结果 | | --- | --- | --- | | 1. 识别速度快:毫秒级实时识别音频流 | 用户使用此类软件时中响应等待久,体验感差 | 识别速度快,用户使用软件体验良好 | | 2. 语种丰富:支持普通话和略带口音的中文识别;支持英文识别 | 部分用户普通话略带口音、英文无法识别 | 语言丰富可供选择,支持简单多种语言混合识别 | | 3. 准确率高:中文普通话识别准确率达98% | 中文普通话被识别准确率低 | 识别转换准确率高,用户对识别文字内容修改次数少,用户好感度上升| | 4. 人性化设计:对识别中间结果进行智能纠错,并根据语音的内容理解和停顿智能匹配合适的标点符号,。!?| 用户录制音频时中间内容被识别错误,得不到纠正,标点符号无法识别 | 贴心人性化设计,增加用户好感度,“以人为本”,为人而设计| | 通用文字识别技术优势 | 用户痛点 | 结果 | | --- | --- | --- | | 1. 语种丰富:支持中、英、法、俄、西、葡、德、意、日、韩、中英混合等10种语言识别,同时支持中、英、日、韩四种语种的类型检测 |上传或扫描图片文字内容是非单一语言,识别结果易混乱,增加用户的负担、用户好感度下降 |快速识别图片里的文字,多语种满足用户需求多样性 | | 2. 便捷&人性化:用户拍照、截图,或识别纸质文档,实现纸质文档电子化 |相关文字资料多且难以携带和收纳,增加用户体力的花费| 满足用户“轻装上阵”开会、上课、采访的需要,有效降低企业人力成本,提高信息录入效率 | | 3. 准确率高:能识别所有常用字和大部分生僻字 |生僻字未能被正确识别| 方便用户进行文本的提取或录入,有效提升产品易用性和用户使用体验 | #### 2.补充说明 | 分类 | 注意因素 | | --- | --- | |实时语音识别技术|环境其他声音音量、离麦克风的举例、用语特殊性(专业领域)、发声人数、语速| | 文字识别技术|图片格式、图片长宽最低限制、图片高宽最大限制、图片清晰度、图片大小| ##### PS:尽管上述的API识别准确度高,但语音和文字的识别也存在着一定的误差。对此的解决办法是,加以用户的少量“人力”例如反馈减少今后识别的误差,将人工智能的失误率降低。 *** ## 五、学习/实践心得总结及感谢 - 在大二的第一学期学习并完成《API、机器学习和人工智能》课程和期末项目,我收获颇丰。也知道了一款智能产品设计从无到有的不容易。 - 印象最深刻的还是那句“以人为中心”,是的,在上《价值主张与商业设计》课程中也有类似上述的这句话。只有强有力的针对用户痛点设计出来的东西才可以满足用户的需求,解决用户的问题,从而获得一定的收入。“不能为了智能而智能”,我们必须设身处地地为用户着想,一切都要从用户的角度出发。 - 从这次实践中还学到了,人工智能的API的使用必须融合人工智能概率性考量,同时也要考虑IDEO三要素(用户可欲性、技术可行性、商业可行性)。 - 网上可调用的API功能有很多,但我根据当前自身的实际情况,选择了贴合我产品设计的实时语音识别和通用文字 识别两个API功能。 *** - 感谢:[腾讯云](https://cloud.tencent.com)、[百度智能云](https://cloud.baidu.com)、[Azure](https://azure.microsoft.com/zh-cn/)、[有道智云](http://ai.youdao.com/)等API平台,提供的API产品与免费的API调用额度,让我有机会完成该产品与学习智能API的相关知识 - 感谢许智超老师对我学习这门课程的帮助 - 感谢我的舍友[zdl](https://gitee.com/ZhuDilun/projects)、[czj](https://gitee.com/orangezj)、[njj](https://gitee.com/nie_jun_jie)为我产品设计初期提供的诸多建议 - 感谢[百度AI开放平台](https://ai.baidu.com/)提供的API接口 - 感谢[Process on](https://www.processon.com/diagrams)提供的优秀绘图软件 - 感谢[人人都是产品经理](http://www.woshipm.com/)关于产品设计的经验分享 - 感谢[墨刀](https://modao.cc/brand/promote/main?utm_source=baidu&utm_term=modao&f=baidu2&renqun_youhua=2326761&bd_vid=9550823763310875098)提供的关于产品原型设计与制作的技术支持 *** ## 六、参考资源 *** ## 七、互评温馨提醒 ##### 1. 独特非重复有效外连URL:共20个 ##### 2. 图表(包括图片+表格) ###### 除去本文的开头产品简介表格,共有23个图片/表格 ##### 3. [语音旁白讲述](https://b23.tv/U1nrlv) ##### 4. 请同学们翻阅,谢谢~