# API_final_project **Repository Path**: KYXTWX/API_final_project ## Basic Information - **Project Name**: API_final_project - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2020-07-02 - **Last Updated**: 2024-08-29 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # API、机器学习与人工智能期末项目 | 文档名称 | RFL book——产品需求文档 | |------|--------| | 产品名称 | RFL book | | 产品描述 | 一款集读书、找书、听书于一体的阅读类APP | | 产品版本 | 1.2 | | 文件现状 | 进行中 | | 文件作者 | 孔晓桐 | ## 一、MVP加/价值主张宣言 #### MVP 1. 标题融合问题提出解决 - 该APP产品的三大目的分别是:1.为了使平时阅读的方式更加方便节约,减少纸质阅读报纸、书籍等等文本类物件的使用,我们可以实现多种电子化功能并提供一样的阅读体验,实现阅读形式的加值。2.为了用户在线下阅读时,能通过拍照书的封面来查找感兴趣的同类型的书,减少手动查阅的时间,更大程度地实现阅读的利益化。3.为了提供给用户更舒适简便的阅读方式,帮助用户释放双手和双眼,以语音播放的形式帮助用户阅读,通过多种音库的朗读功能来提供更极致的阅读体验。 #### MVP 2. 简介含问题及解决方案,融合概率性考量 - 使用到的人工智能技术是百度AI开放平台的通用文字识别api、相似图片搜索api、在线语音合成api。通用文字识别api提供了整图文字检测和识别服务,用户可以通过对文本拍照的方式,再由api对图片中的文字进行检测和识别,帮助用户对文字进行提取、保存处理,也可实现纸质文档电子化。相似图片搜索api,主要是在用户阅读纸质书籍时想了解更多同类型的书的情况下,用户可以通过对书籍拍照,就能检索到相似的书籍,提升了搜索查找的便捷性,优化用户体验。在线语音合成api帮助用户通过导入一篇文章或书籍,以文本文件的形式导入语音合成引擎,产生完整的可重复阅读的有声材料,最终以语音阅读形式呈现给用户。 ## 二、问题需求 #### 1. 目标用户群:16~38岁的年轻阅读爱好者。 #### 2. 用户画像及使用场景 - 用户画像: ![输入图片说明](https://images.gitee.com/uploads/images/2020/0716/130552_4a62c9bc_2228748.jpeg "API用户画像.jpg") - 使用场景:小圆老师在整理学生档案和课件的时候,发现很多文字因为存放的原因导致部分磨损,无法继续识别和保存,于是在做新的纸质文档的时候,拿起了手机,打开RFL bookAPP对这些文档进行拍照处理,文字就被提取和收录并永久保存在了手机里。在上班时被学生推荐了一本小说,发现对这种类型的小说很感兴趣,想继续看同类型的书籍,于是也打开了APP,拍下了书的封面,就看到很多同类型书籍的推荐,于是就开始阅读电子书。晚上下班回家后,在睡觉前,也打开了APP,用听的方式,接着阅读喜欢的小说。 #### 3. 问题表述 | | 页面 | |-----|----| | 问题1 | 页面有什么功能? | | 回答1 | 文字识别、 相似图片搜索、语音合成 | | 问题2 | 如何实现文字和图片识别? | | 回答2 | 用户通过上传图片、文档或者拍照的方式,来进行文字的提取和录入,对图片进行相关搜索和推荐 | | 问题3 | 识别结果从哪里来? | | 回答3 | 在百度AI开放平台对api进行调用 | | 问题4 | 语音识别是否会发生文字识别错误? | | 回答4 | 在线语音识别api比离线语音识别api准确度更高,存在流量输送,所以几乎不存在文字识别错误的情况 | | 问题5 | 用户能否通过这款手机阅读APP得到与纸质阅读的质量? | | 回答5 | 这款APP相对于同类型的阅读类APP来说,功能性更强,在实现与纸质阅读的质量同等的情况下,还提升了用户体验,优化阅读 | #### 4. 需求列表(对应API智能加值) | 序号 | api技术 | 用户场景 | 优先级 | |----|-------|------|-----| | 1 | 百度AI开放平台的通用文字识别 | 对纸质文本材料进行电子化保存 | A(重要) | | 2 | 百度AI开放平台的相似图片搜索 | 想找同类型的文章和书籍来阅读 | B(次重要) | | 3 | 百度AI开放平台的在线语音合成 | 不想使用眼睛和手来阅读的情况下通过听的方式实现轻松阅读 | A(重要) | ## 三、需求概述 #### 1. 产品背景 如今的阅读方式已经不再局限于纸质材料,电子化阅读已经成为了当代社会的阅读主流形式,电子书也占了主体,不仅利于书的保存也节约了资源。在人们除了图书馆或书店以外阅读纸质书籍的情况下,很难可以找到与此书同类型的其他书,可能需要查找相关资料或亲自到图书馆才能查阅到。但是在这个快节奏的时代,人们总是想办法把事情简单方便化,更别说还要花时间去查阅相关书籍。同样,阅读也不例外,所以当可以不用眼睛和手来体验阅读的话,他们就会倾向于“听书”的形式,减少在阅读上产生的视觉疲劳。 #### 2. 产品市场 市场上很多阅读类的APP其实都有语音识别功能,有文字识别api的软件也不在小数,相似图片搜索的话其实目前市场还不算大,但是把三者结合在一起的APP,满足用户在阅读时就能轻松解决大多数会发生的情况,增强用户阅读体验,市场上可能还未能达到这种阶段。在社会进步的同时,人们对于阅读的需求越来越高,但是又不愿意长时间用眼睛阅读电子书,所以语音识别技术开始逐渐兴起,也有越来越多人热衷使用。 #### 3. 市场概述 - 语音合成技术目前主要往提高合成语音的自然度、丰富合成语音的表现力、多语种文语合成等多方面发展。不过在文本转语音功能上,已经能做到满足用户需求,也能在多款阅读APP上有所体现,实现了阅读的基本功能方式。这种单独的技术虽然说目前比较普遍,但是结合文字识别和图片检索技术,尚未成熟。 - 市场特征:图片检索、文字和语音识别三者结合的市场发展性很大,三者虽在各自的领域有一定的市场基础,但结合能带来更大的市场占有率。技术层面较大,智能性强,具有很大的挑战性。可用于读书、提供图像识别找到同类型书籍、语音播报让用户用听的方式阅读等多功能的阅读软件,在热爱阅读的用户群体中会受到很大的欢迎,市场包容性较大。 - 发展优势:功能性强,几乎解决了用户会在阅读时遇到的情况,实现便捷化阅读。目前对语音合成技术需求较大,比如“懒人听书”的形式受大众欢迎,有一定的市场。相似图片搜索用在搜查同类型书籍这一功能较为新颖,能够吸引新用户。 ## 四、核心价值与用户痛点 **1. 核心价值:RFL bookAPP帮助用户轻松便捷地阅读,集合多功能为用户提供新的阅读体验。实现线上代替纸质材料轻松阅读、识别图像找书的新功能、解决不方便用双眼双手也能轻松阅读的情况。** **2. 用户痛点:** | 用户痛点 | API加值 | |------|-------| | 需要提取纸质文本材料内容,想永久保存纸质文档,但纸质文本材料保存期短且容易流失 | 百度AI开放平台的通用文字识别api | | 线下查阅某本书的同类型书籍、报刊、杂志或文章会浪费大量时间,过程麻烦且不准确 | 百度AI开放平台的相似图片搜索api | | 不方便用眼睛阅读或者在视觉疲惫的情况下,想释放双眼和双手,却又需要阅读材料的时候,希望能得到好的技术解决方法 | 百度AI开放平台的在线语音合成api | ## 五、API技术优势与解决用户痛点 - [百度AI开放平台的通用文字识别技术](https://ai.baidu.com/tech/ocr/general)优势与解决用户痛点: > 使用通用文字识别技术,实现拍照文字识别、相册图片文字识别和截图文字识别,可应用于搜索、书摘、笔记、翻译等移动应用中,方便用户进行文本的提取或录入,有效提升产品易用性和用户使用体验。使用通用文字识别技术,实现纸质文档的识别,并返回文字在图片中的位置信息以便于进行比对、结构化等处理,可满足文档快速录入、存档和检索的需求,提高信息录入效率。————帮助用户解决文档文本流失存放的问题,实现轻松提取图片文字内容,更方便地阅读。 - [百度AI开放平台的相似图片搜索技术](https://ai.baidu.com/tech/imagesearch/similar)优势与解决用户痛点: > 将用户拍摄的图片在文档库和书库中搜索,找到同款或同类型的文章和书籍,进行书籍销售或者相关文章和书籍推荐,提升搜索查找的便捷性,优化用户体验。————为一些喜欢阅读同类型文章和书籍地用户带来了便捷,方便他们更快寻找合适的文本内容。 - [百度AI开放平台的在线语音合成技术](https://ai.baidu.com/tech/speech/tts_online)优势与解决用户痛点: > 使用语音合成技术的阅读类APP,能够为用户提供多种音库的朗读功能,释放用户的双手和双眼,提供更极致的阅读体验。————提供给用户新的阅读体验,帮助用户轻松阅读,减少阅读的疲惫感,增强阅读品质。 ## 六、产品结构图 * #### 产品功能结构图 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0717/112708_156a5e34_2228748.png "RFL+book.png") * #### 用户流程图 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0717/131935_f11d54fd_2228748.jpeg "用户流程图.jpg") * #### 产品流程图 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0717/133940_6dc6e375_2228748.jpeg "产品流程图.jpg") ## 七、产品原型及交互设计 - #### [原型html文档](https://gitee.com/KYXTWX/API_final_project) - #### [原型交互展示](http://kyxtwx.gitee.io/api_final_project/#g=1&p=%E7%99%BB%E5%BD%95%E9%A1%B5) **1. 启动页面和注册登录页面** ![输入图片说明](https://images.gitee.com/uploads/images/2020/0717/135220_c2b30f7a_2228748.jpeg "登录页.jpg") **2. 4大功能页面** - 读书页 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0717/141714_c0bcc043_2228748.jpeg "读书.jpg") - 找书页 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0717/154339_1e177a90_2228748.jpeg "找书.jpg") - 听书页 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0717/155709_2f18f23c_2228748.jpeg "听书.jpg") - 我的 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0717/160410_d49e6761_2228748.jpeg "我的页.jpg") ## 八、API的运用 #### 1. 文字识别 **百度AI开发平台————通用文字识别api** > - 接口描述:基于业界领先的深度学习技术,提供多场景、多语种、高精度的整图文字检测和识别服务,多项ICDAR指标居世界第一。 > - HTTP 方法:POST > - 请求URL:https://aip.baidubce.com/rest/2.0/ocr/v1/general_basic - 案例: ![输入图片说明](https://images.gitee.com/uploads/images/2020/0717/161644_0afc7e96_2228748.png "a.png") ![输入图片说明](https://images.gitee.com/uploads/images/2020/0717/162129_677bd2aa_2228748.png "b.png") api识别图片中的文字,可提供多语种识别,并进行文本提取和录入。用户可通过提取到的文本进行保存处理,提高文本记忆。 - 代码: ![输入图片说明](https://images.gitee.com/uploads/images/2020/0717/170426_24a644a5_2228748.png "通用文字识别代码.png") #### 2. 图像技术 **百度AI开发平台————相似图片搜索api** > - 接口描述:该接口实现单张图片入库,入库时需要同步提交图片及可关联至本地图库的摘要信息(具体可传入图片在本地标记id、图片url、图片名称等),方便对图库中的图片进行管理、分类检索。 注:重复添加完全相同的图片会返回错误。 > - HTTP 方法:POST > - 请求URL:https://aip.baidubce.com/rest/2.0/image-classify/v1/realtime_search/similar/add - 案例: ![输入图片说明](https://images.gitee.com/uploads/images/2020/0717/162834_4458fa67_2228748.png "c.png") #### 3. 语音技术 **百度AI开发平台————在线语音合成api** > - 接口描述:百度语音合成服务,基于HTTP请求的REST API接口,将文本转换为可以播放的音频文件。 > - HTTP 方法:POST、GET, 推荐POST方式请求。 > - 请求URL:http://tsn.baidu.com/text2audio 或 https://tsn.baidu.com/text2audio - 代码: ![输入图片说明](https://images.gitee.com/uploads/images/2020/0717/170753_cbb4d28c_2228748.png "在线语音合成代码.png") ## 九、心得总结及感谢 - 百度AI开放平台提供的文字识别技术方便用户进行文本的提取或录入,有效提升产品易用性和用户使用体验。相似图片搜索技术提升搜索查找的便捷性,优化用户体验。语音合成技术能够为用户提供多种音库的朗读功能,释放用户的双手和双眼,提供更极致的阅读体验。三者合一在阅读APP领域具有更多功能开发的可能性,不仅能提高用户在阅读时的体验,增强产品性能,而且能给api技术带来更好的前景。 - 通过于其他平台的对比,发现百度旗下的AI开发平台提供的人工智能服务会更良好一些。也从API的体验中感受到了现代社会的智能化,给我们的生活带来了很大的变化,也带来了很多便捷的服务。不过通过一个学期的学习,可能对API调用方面还是掌握得不够,代码对于我来说还是一件很困难得事情,希望以后能在这方面有更大的进步。