# API **Repository Path**: qiu33/API ## Basic Information - **Project Name**: API - **Description**: 用于存放API课程相关内容 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-06-18 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README 版本迭代说明: 迭代三相比迭代二增量改进18次,修改内容如下: 1. 更换代码展示图片,由于之前的图片含有API secret key,容易泄露,因此将含有API secret key的部分打码 2. 更换数据流程图图片,展示更为详细的数据流程 3. 更换关键核心页面识别页的信息设计图片,展示更为详细的智能交互 4. 规范markdown语法的使用,让文档看上去更为专业,将标题统一调大一号,方便更好的浏览文档,防止错过标题信息,将关键信息进行加粗,方便浏览者抓取更为关键重要的信息 5. 对界面流程设计和数据流程设计的用户可欲性、商业可行性、技术可行性进一步补充完善,展示出更强的用户可欲性、商业可行性和技术可行性 6. 调整图文顺序,将数据流程图放置数据推理之后,方便查阅同一类别的内容,逻辑显得更为清晰 7. 对人工智能概率性考量进行补充,通过查阅相关资料后引用于本文档,增强文档专业性 8. 对PPT进一步优化,将原本纯白的背景的PPT应用背景,充份运有投影片视觉及听觉元素,专业地呈现PRD文档中的主要内容,并对PPT中的字体字号、图文排版进行了修改;对PPT补充心得内容和解决方案,专业地传达主要内容 9. 对产品简介进行补充修改,在简介中融入解决方案,使简介更为具体可懂 10. 优化链接,在文档末尾,将原本的超链接标明了所参考的学姐的项目,体现对学姐的尊重;并在心得总结及感谢处新增感谢,感谢所有互评人对本文档指出的修改意见 详情请看diff链接:[迭代二与迭代三修改对比](https://gitee.com/qiu33/API/compare/fbeeed4b4a0d73155a57229498fbcb406f9303bb...master) # 一、产品信息 | 产品名称 | 拍拍 | |-------------------------------------------------------------------------------------|------| | 产品简介 | 一款集植物果蔬识别、植物科普和有声故事一体的有趣应用,其中利用了植物识别技术、果蔬识别技术及语音合成技术,用户可以通过手机摄像头快速智能地识别出现实中的植物的名称和资料,而且它与市面上大多数的植物识别应用不同,拍拍针对的用户群是儿童及家长,因此融入故事功能和科普页面,对于喜欢植物、想了解更多植物知识的小朋友,可以说这是必备的 APP | | 产品现状 | 进行中 | | 负责人 | 邱珊珊 | # 二、价值主张设计 ## 1、加值宣言 我认为目前市场上针对儿童所开发的植物识别软件还不够多,大部分识别软件的形式都很单一,没有真正考虑到儿童的需求,而“拍拍”就是针对目前市场现有植物识别类APP进行加值和优化。其中,该APP使用到的人工智能技术有图像识别中的植物识别API、果蔬识别API和语音合成API,可以在拍照识别后返回识别到的植物名称、置信度等信息,同时提供语言播报,通过使用语音合成API将文字通过语音形式念出来,帮助儿童更好的理解文字内容,科普植物方面的知识,除此之外,还融入和果蔬识别API,来帮助家长儿童分辨果蔬的真实信息;额外的听故事页有助于提高产品用户粘度,科普页有利于儿童或家长掌握更多知识 ## 2、核心价值 * 核心价值宣言: 着眼于解决家长儿童在植物识别方面的问题,次要解决家长儿童分辨不清果蔬真实信息的问题,将为用户提供拍照识别植物、语言播报识别结果、果蔬识别的服务 * 植物识别:最小可用产品是用户通过拍照或上传植物的图片,通过检测用户上传的图片进行识别检测,并返回识别结果 * 语言合成:最小可用产品是能流畅的阅读出识别的文字信息 * 果蔬识别:最小可用产品是识别出图片中的果蔬名称并返回置信度 ## 3、用户分析 ### 目标用户群 主要目标用户:想了解植物方面知识的儿童(3-12岁)和想让孩子学习更多关于植物果蔬方面知识的家长 (图片可点击放大查看) | 用户A | 用户B | 用户C | |-----|-----|-----| | ![用户画像1](https://images.gitee.com/uploads/images/2020/0717/135710_615a884d_2228431.jpeg "用户画像1.jpg") | ![用户画像2](https://images.gitee.com/uploads/images/2020/0717/135808_b88456a5_2228431.jpeg "用户画像2.jpg") | ![用户画像3](https://images.gitee.com/uploads/images/2020/0717/135820_a40a130e_2228431.jpeg "用户画像3.jpg") | ### 用户痛点: 1. 在户外活动时,小孩子看到路边好看的鲜花发问,这是什么花,而家长却答不出来,想通过百度搜索,却发现不知如何搜索才能知道花的名称 2. 小孩子单独使用拍照识别类APP时,发现返回的结果页面中有些文字不认识 3. 家长想通过更有趣的方式给孩子科普更多关于植物的知识,但在应用商店找不到适合儿童使用的植物识别APP,大部分都是针对成人的 4. 平时看到好看的鲜花植物却不知道名称和含义 5. 对一些果蔬肉眼分不清楚,例如“车厘子”和“樱桃”,容易上当受骗 ## 4、人工智能概率性与用户痛点: > 早在2016年,由中国科学院植物研究所与百度等单位合作开发的“智能花卉识别系统”,让“拍花识植物”成为现实。该“看图识花”系统已经实现了针对生活中1000多种常见的植物约80%的识别。而要想进一步提高植物识别的准确率,提高样本量和样本准确度是关键。 > 人工智能的普及,植物科普也迎来了新局面。目前市场上也出现了表现优秀的植物识别软件,基于前沿人工智能深度学习技术和智能算法、利用植物研究机构多年积累的海量植物分类图库研发而成的某款植物识别软件,在识别植物方面可谓是“独具慧眼”。 随着人工智能的不断发展,图像识别技术也运用的越来越广泛,其中,最常见的就是拍照识别类的APP,而本产品“拍拍”,也属于拍照识物类的软件,其中运用到的百度AI开放平台中植物识别API、语音合成API和果蔬识别API具有以下优势: * 植物识别API、果蔬识别API: 1. 准确度高,基于百度丰富的海量数据,利用深度学习技术及精准的算法迭代模型,不断提高准确度 ———— 能让儿童或家长准确了解植物果蔬的名称 2. 支持获得百科信息,让产品功能更完善、内容更丰富 ———— 能让儿童和家长进一步了解鲜花植物的更多信息 3. 稳定性好,提供24小时云端高温的服务,单图毫秒级响应,服务可用性高达99.95% ———— 能让儿童或家长通过拍照识别快速获取信息 * 语音合成API: 1. 支持多种语言多种音色,支持中文、英文混读,有男声、女声、童声可供选择,更支持语速、音调、音量设置,让应用具有更甜美和更磁性的声音 ———— 帮助儿童解放双眼和双手,更好的理解文字内容,带来更极致的阅读体验 2. 合成效果流畅自然,合成效果接近真人声音,流畅自然,且极具表现力,为用户带来最舒适的听觉体验 ———— 进一步提高儿童对植物科普方面的兴趣 经测试后发现百度AI的植物识别技术、果蔬识别技术和语音合成技术**存在的人工智能概率性问题有** : 1. 当照片模糊时,可能出现识别结果不准确的问题 2. 识别技术只针对单一品种进行识别,当照片中存在多种植物类别或果蔬时,可能识别到的是面积最大的,而不是用户想识别了解的 3. 语音合成的概率性问题是可能合成过程中文字转换不到位,出现播报时文字读错的问题 除以上存在的概率性问题外,植物识别技术、果蔬识别技术、语音合成技术在普遍情况下都可以正常使用,完成度和准确率都较高,可能产生的负面影响的概率性较小,对正面影响并不大,不妨碍整体功能的使用,也不妨碍本产品的加值主张 ## 5、需求列表与人工智能API价值 ### 需求列表(对应人工智能加值) | 序号 | API技术 | 用户场景 | 优先级 | 是否属于人工智能 |对应人工智能加值| |----|-------|------|-----|----------|-------| | 1 | 植物识别 | 儿童或家长想快速知道植物信息 | A(重要) | 是 | 使用植物识别技术进行拍照识别,获取用户想要的信息并返回结果,解决用户想快速了解植物信息的问题| | 2 | 语音合成 | 在返回识别结果后,小孩子对一些文字不认识,于是将文字转换成语音 | A(重要) | 是 | 使用语音合成技术将返回识别结果转换成语音,用户点击可进行语音播报,解决儿童因文字水平有限无法看懂识别结果的问题 | | 3 | 语音合成 | 儿童想在休闲时刻或睡前听故事 | A(重要) | 是 | 使用语音合成技术对故事内容进行语音播报,解决儿童想听故事却无人讲的问题 | | 4 | 果蔬识别 | 家长或儿童在购买果蔬时肉眼分辨不出相似品种,想知道自己会不会被骗 | B(次重要) | 是 | 使用果蔬识别技术对果蔬进行识别,解决用户分不清相似果蔬的问题,帮助用户了解更多果蔬| ### 具体应用场景: 1. 七七作为家长,带孩子出去玩,面对形色各异的野外植物,孩子突然指着一种植物问:“妈妈,这是什么花?可以吃的吗”,作为家长的七七却不认识,这时她打开了拍拍APP,对植物拍照识别,返回结果后告诉孩子 2. 八岁的小伞已经上小学了,有一天,她看到路边的花开的旺盛,想知道这是什么花,于是拿起家长的手机拍了拍植物,但返回的结果页中有很多字小伞都不认识,让妈妈介绍却介绍的不好,于是点击了语音播报自己听,从而知道了这个花的更多信息 3. 球球和妈妈去逛小摊位,发现很多蔬菜水果都长得差不多,对5岁的球球来说很难分辨,于是球球拿起妈妈的手机对自己感兴趣的水果蔬菜逐个拍照识别,因此对长得相似的蔬菜水果有了进一步的认知,再也不怕被路边摊的小商贩骗啦 4. 小闪的孩子每天睡前都要听故事,而小闪今天工作很忙,没办法抽空给孩子讲故事了,于是打开了拍拍APP,点击听故事,选取了一个孩子感兴趣的故事播放,用该软件来代替自己讲故事 ### 需求论证利害相关者分析 在如今科技发展的大背景之下,无论我们碰到什么难题,我们都下意识首先掏出手机查询一下答案,当我们在生活中遇到我们不认识不熟悉的植物时我们会一头雾水,但掏出手机的我们并不能通过输入简单的文字描述就知晓它的名字。而这时将图片分析技术融入植物识别成为了未来的设计发展趋势。而且我们不会希望像以前一样查询结果只有一首诗词、文化和趣闻,而缺少植物的具体特征、生长习性和功能价值。尤其是对从事与植物有关的行业人士来说,这些信息是微乎其微的。而本产品“拍拍”只需要用户通过拍照即可得到植物名称、置信度、百科描述等。本产品中使用到的关键API人工智能技术对解决方案的可能关键影响论证如下: | 利害相关者 | 目标需求 | 关键API | 分析 | 总结 | |-------|----|-------|----|-------| | 目标用户 | 使用本产品的拍照识别功能识别植物果蔬,并获取相关信息;使用本产品的故事功能听故事;使用本产品的语音播报功能将文字通过语音形式播报,解放双手双眼,获得极致体验 | 植物识别API、果蔬识别API、语音合成API | 1、植物识别API、果蔬识别API在高概率成功识别的同时也存在小概率识别失败的问题,如用户输入的图片不清晰导致识别失败;还存在的小概率事件是识别结果可能存在偏差,如识别结果与实际不符,误导用户认知。 2、在故事页融入了语音合成技术,可将文字转语音,但存在的ESG问题是,可能会让儿童过渡沉迷 | 利>害,虽然存在有偏差问题、ESG问题,但都是小概率事件,本产品为用户带来的利远远大于弊 | | API提供平台 | 为本产品提供技术方面的支持,让平台的技术被更多的人群使用 | 植物识别API、果蔬识别API、语音合成API | 若使用产品的用户多,短时间内调用的频次高,存在的问题是当调用量无法预估时,关键技术能否支撑起高频次的调用,免费调用量能否满足产品需要?精确度能否再优化提升? | 利>害,百度AI开放平台在国内来说算是较为有名且技术较为成熟稳定的一个平台,并且已经与一些软件达成了技术方面的合作,可见其技术的可行性,只要API提供平台提前预估可能发生的问题并及时做出解决,那么对平台带来的利益是非常不错的 | | 产品开发者 | 产品功能满足用户基本需求,操作简单易上手,利用现有技术与知识制作软件界面,并融入交互设计的理念;产品核心技术稳定,不影响用户随时使用 | 植物识别API、果蔬识别API、语音合成API | 1、识别植物时出现错误,从使用者的角度讲,很难在使用时通过自己的辨别发现软件识别出错。一般情况下,用户会默认是识别出了正确的植物,一旦出现问题,会给使用者带来极其不好的使用体验,可能会造成用户流失 2、产品所占内存是否会太大,是否会影响用户使用 3、购买的调用量能否满足用户的调用次数,当调用次数用完后所产生的费用能否与产品收益相抵,能否为产品开发者带来可观的收益 | 利>害,虽然可能存在识别出错导致用户流失的问题,但都是小概率事件,由于产品选择了技术较好的平台作为支撑,所以造成的负面影响不会压过正面影响;产品会不断迭代更新,但在内存方面并不会占用用户过多资源;调用次数与调用所需费用可能不成比例,但当用户群体增多时,所造成的损伤都是可以弥补的 | 综上: 1. 植物识别API、果蔬识别API在高概率成功识别的同时也存在小概率识别失败的问题,如用户输入的图片不清晰导致识别失败,为了提高用户体验,在本产品中创建了一个识别失败的页面提示用户,用户可以选择重新识别或退出识别,还存在的小概率事件是识别结果可能存在偏差,如识别结果与实际不符 2. 语音合成API,关于ESG考量,故事页是为了提高用户粘度,融合了语音合成技术,可将文字转语音,存在的ESG问题可能是会让儿童过度沉迷 3. 语音合成技术虽然目前广泛应用,但不可否认的是语音合成的精确度还没高达100%,这就如同我们人一样,在读字过程难免会有出现口误读错的现象,人工智能也如此,也存在文字读取错误的现象,可能语音播报过程中并未精准读取文字,那么这对儿童的教育是不利的,为了降低这种错误问题的发生,本产品语音合成部分选择了精确度较高、流畅度较好的百度AI开放平台作为技术支持 ## 6、需求概述 ### 产品背景 植物种类丰富多样,小孩子的好奇心总会驱使他们去了解清楚他们想了解的物种,“为什么”是无限的,而家长的知识和时间确是有限的,当小朋友突然问到植物名称的的时候,大人可能并不知道,无法作答,这样就限制了小朋友知识面的扩展 ### 产品市场 * 3-12岁是孩子的语言能力发展阶段和智力发育阶段,这一时期对孩子的智力培养格外重要,经过对市场上识别类APP的调查发现,想找到一款识别植物的APP并不难,但是大部分产品都是针对大人,很少考虑到小孩的需求,很少有将语音合成融入到动植物识别类软件的,而小孩子可能阅读能力有限,并非全部识别出的结果都能看懂,这时就需要语音合成,将识别的文字转换成语音,通过语音播报的方式念给小孩子听 * 在日常生活中,儿童可能会出现两种相似果蔬肉眼分不清的问题,比如“车厘子”和“樱桃”,但两者的价格却相差甚远,在不了解的情况下就可能会上当受骗,这时就可以交给人工智能来分辨 * 故事书是孩子童年必不可少的,而随着科技的发展,使用电子书的现象越来越常见,更多的孩子也愿意选择有声音的故事 ### 市场概述 * 市场特征 1. 智能识别市场广阔,增长迅速,目前正处于发展阶段智 2. 针对儿童推出的拍照识别软件少,发展空间广阔,现如今还未出现行业龙头 3. 对产品技术要求较高,需要契合场景要求,由于植物多种多样,且儿童的知识水平有限,有时候儿童无法直接看懂识别结果,而需要采取语音播报的方式 * 发展优势 1. 目前针对儿童推出的拍照识别植物软件少,还未有强有力的竞争对手,竞争力小,市场广阔 2. 用户痛点明显,具有一定的开发价值 3. 可以真正为儿童和家长解决困难,将会受到欢迎 # 三、产品设计原型 ## 1、产品功能结构图 ![产品功能结构图](https://images.gitee.com/uploads/images/2020/0717/044501_1db6b82e_2228431.jpeg "未命名文件.jpg") ## 2、用户流程图 ![用户流程图](https://images.gitee.com/uploads/images/2020/0717/052518_2f39d559_2228431.jpeg "用户流程图.jpg") ## 4、交互界面设计 ![原型图1](https://images.gitee.com/uploads/images/2020/0724/155222_eb5f72dc_2228431.png "原型图1.png") ![原型图2](https://images.gitee.com/uploads/images/2020/0724/155203_b76bc220_2228431.png "原型图2.png") ## 5、界面流程设计分析 ### 用户可欲性 * 产品功能基本满足目标用户需求,能够即时得到识别结果,用户可欲性强 * 除解决植物果蔬识别的问题外还融合故事页和科普页,让用户在识别植物外还能享受其他附加功能,有利于培养用户的观察力和智力 * 界面设计符合产品调性,采用绿色作为界面的主色调,与绿色自然理念贴切,且产品交互功能良好 * 操作简单,用户将手机对着植物的特征部位一拍,就能自动识别该植物的名称,并提供更详细的信息,用户就像随身携带了植物专家一样 * 融入的语音播报解决的主要问题就是如何将文字信息转化为可听的声音信息,使机器具有类似于人一样的说话能力 ### 商业可行性 * 针对儿童推出的拍照识别类app少,还未形成强有力的竞争对手,市场前景较好 * 该产品具有明确的核心价值和使用需求,产品的市场未来需求趋势逐步增长 * 除拍照识别功能外还增加故事页和科普页,增加本了产品的价值 * 人工智能的深度学习功能,模型的更新和数据的积累会让系统的识别能力提高并且越来越精准,而且系统具有自主学习能力,识别的植物种类也会不断增加 * 伴随着人工智能行业的快速发展,中国在智能语音这个细分市场的发展速度也将会持续增长,因此融合了智能语音技术的软件也会得到发展 ### 技术可行性 * 有平台可以直接调用相关API,且技术成熟稳定,可行性强 * 调用了百度ai开放平台的植物识别技术、果蔬识别技术和语音合成技术,而这几个技术在其他产品软件中有使用过,说明技术可行 * 该产品API存在小概率的技术风险,但是此小概率风险对用户体验的负面影响不会压过正面影响的机率 * 对比了多家平台的API,选择了较为精确稳定的API对产品进行加值 * 语音合成技术,能将任意文字信息实时转化为标准流畅的语音并朗读出来,相当于给机器装上了一个嘴巴,它涉及到声学、语言学、数字信号处理、计算机科学等多个学科技术,是人工智能信息处理领域的一项前沿技术 ## 6、信息设计(关键核心页面展示智能交互) ### 核心页面智能加值输入及输出描述 (图片可点击放大查看) | 识别页 | 识别结果页 | 故事页 | |-----|-------|-----| | ![识别页](https://images.gitee.com/uploads/images/2020/0728/120435_25f3d082_2228431.png "识别页面智能交互.png") | ![识别结果页](https://images.gitee.com/uploads/images/2020/0723/103009_c0c2754b_2228431.png "微信截图_20200717034334.png") | ![故事页](https://images.gitee.com/uploads/images/2020/0723/103028_82ef649c_2228431.png "微信截图_20200717034319.png") | | **智能加值输入描述** :在识别页,用户通过自行拍摄一张植物果蔬的照片或者通过相册上传照片进行识别在该页面,调用了百度AI的植物识别API和果蔬识别API来对图片进行识别 | **智能加值输出描述** :在识别结果页,将用户输入的图片从百度AI开放平台的植物识别API或果蔬识别API接口获取识别数据,返回结果;同时该页面提供了语音播报,使用了百度AI的语音合成API,可将返回的识别结果转成语音播报,用户点击“听声音”即可合成语音 | **智能加值输出描述** :在故事页,同样使用了语音合成API,用户点击播放按钮,将使用语音合成API对故事内容进行语音合成,将文字转换成语音的形式播放,同时根据百度语音合成的特点,点击下拉框可调节播报语速 | ## 7、原型文档 [原型交互页面展示](https://qiu33.gitee.io/api/prototype/) # 四、数据推理 | | 页面 | |-----|--------------| | 问题1 | 我们在页面上呈现什么内容 | | 回答1 | 植物识别结果、果蔬识别结果、故事内容、科普内容 | | 问题2 | 向用户输出的结果内容从哪里来 | | 回答2 | 从百度AI开放平台调用相应的API,根据用户输入的内容获得结果 | | 问题3 | 输入的数据从哪里来? | | 回答2 | 输入的数据为用户拍摄/上传的照片、提前输入的故事内容,请求从百度ai开放平台相应的API接口获取 | | 问题4 | 如果页面出现识别错误,应该如何获取并处理数据,正确的数据信息从哪里来 | | 回答4 | 通过用户的反馈进行信息获取,通过用户的反馈扩大数据库,强化机器学习 | ## 1、数据流程图 ![数据流程图](https://images.gitee.com/uploads/images/2020/0727/222942_b5403a3a_2228431.jpeg "数据流程图.jpg") ## 2、数据流程设计分析 ### 用户可欲性 * 数据传输快速,用户可随时识别并获取信息,相比百度搜索等其他方式,拍照识别更为快速,数据传输更为便捷 * 根据返回结果可随时进行语音播报,无需用户消耗过多的时间等待语音转换,节省用户时间 * 故事页已存在有数据,无需用户额外输入文字进行语音播报,方便用户使用 * 输出的识别数据储存在成就页面,用户可随时点击查看,无需再进行二次识别,节省用户时间 * 有强大的数据库作为支撑,错误率低,不容易误导用户认知,对用户体验好 ### 技术可行性 * 植物识别API支持识别超过2万种通用植物和近8千种花卉,接口返回植物的名称,并获取百科信息 * 果蔬识别API可识别近千种水果和蔬菜的名称,适用于识别只含有一种果蔬的图片,可自定义返回识别结果数 * 语音合成API基于业界领先的深度神经网络技术,提供高度拟人、流畅自然的语音合成服务 * 拥有强大的数据库作为支撑,识别的准确率高,基本满足常见植物花卉的识别 * 语音合成技术已达到用户基本可接受的准实用水平,获得了较为广泛的应用,未来语音合成技术将从清晰度和自然度的要求上升至对个性化合成的要求,如对语音、语调、情绪的丰富性要求等 ### 商业可行性 * 输出的数据较多,识别结果不仅限于植物名称,还提供百科信息,并提供相关链接可点击查看,与市面上一些仅提供植物名称的产品相比有一定优势 * 数据信息庞大,因此返回的数据较为全面,有利于产品发展,商业前景较好 * 不断强化机器学习,帮助产品达到更优效果,提升商业价值 * 在为海量用户提供植物识别服务的同时,可以积累大量的数据,这些社会化监控数据对区域或景区物种的类型、数量、分布以及外来物种监测等工作具有重要的参考价值 * 对于用户授权的数据可进行商业之间的合作,将数据提供给有需要的开发者或企业商家,从合作方处获取相应的利益,充分利用数据,达到合作共赢的效果 # 五、API产品使用及输出展示 本产品调用的API均来自:[百度ai开放平台](https://ai.baidu.com/) ## 1、API使用水平 ### (一) 植物识别(使用百度API) * 接口描述:该请求用于识别一张图片,即对于输入的一张图片(base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,长宽比3:1以内),输出植物识别结果,返回植物的名称、置信度,并可选择获取百科信息 * 接口地址:https://aip.baidubce.com/rest/2.0/image-classify/v1/plant * 请求方式:POST * 输入代码示例: ![植物识别输入展示](https://images.gitee.com/uploads/images/2020/0716/210354_e5a62b05_2228431.png "植物识别.png") * 输出代码展示: ![植物识别输出代码展示](https://images.gitee.com/uploads/images/2020/0716/210416_da8e2b50_2228431.png "植物识别结果.png") * 详细代码展示:[植物识别代码展示](https://gitee.com/qiu33/API/blob/master/code/%E6%A4%8D%E7%89%A9%E8%AF%86%E5%88%AB%E4%BB%A3%E7%A0%81%E5%B1%95%E7%A4%BA.md) ### (二)语音合成(使用百度API) * 接口描述:将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术,基于该接口,开发者可以轻松的获取语音合成能力,合成文本长度小于2048字节,如果本文长度较长,可以采用多次请求的方式。文本长度不可超过限制 * 接口地址:http://tsn.baidu.com/text2audio * 请求方式:支持 POST 和 GET两种方式, 推荐POST方式请求 * 输入代码示例: ![语音合成输入代码展示](https://images.gitee.com/uploads/images/2020/0728/114828_f5249447_2228431.png "语音合成代码展示1.png") ![语音合成输入代码展示1](https://images.gitee.com/uploads/images/2020/0716/210554_839ce1fd_2228431.png "语音合成代码展示2.png") ![语音合成输入代码展示2](https://images.gitee.com/uploads/images/2020/0716/210630_51229fc2_2228431.png "语音合成代码展示3.png") * 输出代码展示: ![语音合成输出代码展示](https://images.gitee.com/uploads/images/2020/0716/210654_0ac596cf_2228431.png "语音合成代码展示5.png") * 详细代码展示:[语音合成代码展示](https://gitee.com/qiu33/API/blob/master/code/%E8%AF%AD%E9%9F%B3%E5%90%88%E6%88%90%E4%BB%A3%E7%A0%81%E5%B1%95%E7%A4%BA.md) ### (二) 果蔬识别 * 接口描述:该请求用于识别果蔬类食材,即对于输入的一张图片(base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,长宽比3:1以内),输出图片中的果蔬食材结果。 接口地址:https://aip.baidubce.com/rest/2.0/image-classify/v1/classify/ingredient * 请求方式:POST * 输入代码示例: ![果蔬识别代码](https://images.gitee.com/uploads/images/2020/0716/211157_1bb91254_2228431.png "果蔬识别.png") * 输出代码展示: ![果蔬识别成功](https://images.gitee.com/uploads/images/2020/0716/210954_dd8f5b58_2228431.png "果蔬识别成功.png") * 详细代码展示:[果蔬识别代码展示](https://gitee.com/qiu33/API/blob/master/code/%E6%A4%8D%E7%89%A9%E8%AF%86%E5%88%AB%E4%BB%A3%E7%A0%81%E5%B1%95%E7%A4%BA.md) ## 2、API对比 ### 语音合成 * 百度AI 通过体验百度语音合成发现,百度的语音合成拟人度较高,读取过程流畅自然,准确度高,在标点停顿方面都做的较好,且支持多种参数配置,可根据场景需求对音库的语速、音调、音量进行灵活设置,满足个性化需求,童声提供基础音库5种,其中情感女声2种,情感男声1种,女童声1种,男童生1种,发音人的音色各不相同,能很好满足不同性别的儿童和成人的需求;但百度语音合成有一点是其中文播报的音色和英文播报的音色不同,当在念中文时突然出现英文会出现音色不同的现象 * 讯飞语音合成 通过体验讯飞的语音合成发现,讯飞语音读取过程的清晰度做的较好,准确度高,支持音调、语速、音量的调整,其提供的特色发音人较多,但基础发音人(免费)只有5个,其中情感男声1种,情感女声3种,女童声1种,在音色上也各不相同,但与百度相比,其语音合成的拟人度不如百度好,听上去不够流畅,且发音人无法很好满足不同性别的儿童和成人的需要,因为讯飞并无男童声 * 有道语音合成 通过体验有道语音合成发现,其语音播报在中文情况下是女声,只有在英语语种状态下才可以自行选择人声,并不能满足本产品的需求 **总结分析**:总体来说,百度AI的在线语音合成更胜一筹,其流畅度和拟人度都较高,且在发音人的选择上更契合本产品的需求,虽然其在中英文切换是语音播报的音色略有不同,但并不影响整体体验,故最后选择了百度AI在线语音合成融入到本产品 ### 图像识别(植物识别、果蔬识别) * 百度AI 百度的图像识别下细分不同类型的的识别API,提供了更细分的植物识别和果蔬识别,通过体验百度的植物识别技术发现,其植物识别技术在大多数情况下都能正常使用,且返回的准确率都较高,不仅可以返回植物名称和置信度,还可以自定义选择返回百科链接、百科图片和描述,提供更多相关信息,但问题是其植物识别只能识别单一植物,当图片中存在多种植物类型的时候,其返回的结果是图片中面积占比最大的花的结果,当图片模糊的时候,会出现识别结果不准确的现象 * 腾讯AI 腾讯的图像识别不像百度的图像识别那样有更多的细分类型,但其图像识别也可以识别图片中的植物果蔬等,同样会返回百分比可能性,只是没有更详细的相关描述,且其识别的准确率不够高 * 同图识别差异展示: | 百度AI | 腾讯AI | |---|---| | ![百度牵牛花](https://images.gitee.com/uploads/images/2020/0716/215835_1450eca0_2228431.png "百度牵牛花.png") | ![腾讯牵牛花](https://images.gitee.com/uploads/images/2020/0716/215851_53caa8f6_2228431.png "腾讯牵牛花.png")| | ![百度苹果](https://images.gitee.com/uploads/images/2020/0716/220038_73487d4e_2228431.png "百度苹果.png") | ![腾讯苹果](https://images.gitee.com/uploads/images/2020/0716/220051_87bd1648_2228431.png "腾讯苹果.png") | **总结分析**:总体来说,百度的图像识别更胜一筹,在识别同样的植物图片时,发现腾讯误把牵牛花识别为紫罗兰,并且返回的置信度高达92%,这容易误导儿童或家长,而百度则能准确识别出为牵牛花;在识别同一张为苹果的照片时,腾讯返回的识别结果置信度低于百度,腾讯置信度为58%,而百度的高达90%,所以综上,选择了百度图像识别中的植物识别API和果蔬识别API ## 3、API价格 * 百度植物识别价格: 相关链接:[https://ai.baidu.com/ai-doc/IMAGERECOGNITION/rk3bcxa9e](https://ai.baidu.com/ai-doc/IMAGERECOGNITION/rk3bcxa9e) | 每日500次免费调用额度,免费额度用尽后开始计费,按调用量阶梯计费价格如下:|购买次数包价格如下:| |---|---| | ![植物识别价格](https://images.gitee.com/uploads/images/2020/0716/211550_cdb2030c_2228431.png "植物识别价格.png") | ![植物识别价格](https://images.gitee.com/uploads/images/2020/0716/211611_d1076dcc_2228431.png "植物识别次数包价格.png") | * 果蔬识别价格: 相关链接:[https://ai.baidu.com/support/news?action=detail&id=1693](https://ai.baidu.com/support/news?action=detail&id=1693) | 上线计费后用户可一次性享有3000次免费调用量,超出免费额度将按次进行阶梯计费,价格如下: | 购买次数包价格如下: | |---|---| | ![果蔬识别价格](https://images.gitee.com/uploads/images/2020/0716/211642_0c67616f_2228431.png "果蔬识别价格.png") | ![果蔬识别价格](https://images.gitee.com/uploads/images/2020/0716/211659_3c289ae6_2228431.png "果蔬识别次数包价格.png") | * 语音合成价格: 相关链接:[https://ai.baidu.com/ai-doc/SPEECH/Nk38y8pjq](https://ai.baidu.com/ai-doc/SPEECH/Nk38y8pjq) |基础音库可享有5000次免费调用量,超出后按调用量计费,价格如下: | 购买次数包价格如下: | |---|---| | ![语音合成价格](https://images.gitee.com/uploads/images/2020/0716/211955_925aaab6_2228431.png "语音合成按量价格.png") | ![语音合成价格](https://images.gitee.com/uploads/images/2020/0716/212024_d7a44d99_2228431.png "语音合成次数包价格.png") | ## 4、使用后风险报告: 产品使用可行性: 1. 技术方面可行性 * 该产品具有明确的核心价值和使用需求 * 该产品中的关键功能部分,选择了精准度高、符合用户痛点的API加值 * 调用的API技术风险小,且存在的小概率风险对用户体验的负面影响不会压过正面影响的概率 2. 市场方面可行性 * 用户需求明显,最小可行性功能能满足用户需求 * 用户群体广泛,儿童、成人都可以使用,产品的市场未来需求趋势逐步增长 ## 5、常见错误现象及应对方法(人工智能概率性考量): > 2018年9月,在全国科普日活动期间,百度与多家国内知名植物园达成合作,共同推出“AI植物园计划”。作为“AI植物园计划”中面向用户的产品,“百度探花郎”将接入百度搜索的全平台入口。“百度探花郎”主要包含拍照识花、全景科普以及智能导览三大功能。借助百度识图提供的领先AI图像识别能力,“拍照识花”功能对于常见植物的识别率可以达到92% 经过实践及资料搜集可知,百度AI的图像识别能力还是不错的,识别成功率高,对于用户输入的图像基本都能识别,而 **面对一些可能发生的小概率错误事件,融入人工智能概率性考量,制定出以下应对方法** : 1. 仅能识别单一植物、果蔬:需要具备更为庞大的数据库,不断强化机器学习,使得其在多种混合植物、果蔬中仍能进行精确识别。另外,可开启一个反馈栏,使得用户可对其进行建议性输入,从而强化其数据库 2. 语音合成出现读字不准确,接受到用户反馈后,提示用户:可能读太多太累了,请小主不要举报我,让我缓缓就好 3. 当植物、果蔬识别错误的时候,可以推荐用户手动输入关键词,帮助机器学习进行自我更正,并输出给用户更精确的答案 ## 6、竞品分析 | 竞品 | 简介 | 产品定位 | 功能体验 | 优势 | |----|----|------|------|----| | 花伴侣 | 一款拍照识花利器,花草树木,一拍呈名,只需要拍摄植物的花、果、叶等特征部位,即可快速识别植物,功能多样 | 拍照识花类软件,识别种类多,能识别上万种植物,几乎覆盖所有常见花草树木 | 1. 对于拍摄的植物能准确识别,且识别速度快,耗时短 2. 识别结果页与其他同类型产品差不多,都仅有文字显示,无语音播报 3. 功能丰富,除识别功能外,还有附件、动态、发现、百科功能 | 1. 功能丰富,能吸引更多用户 2. 算法强大,准确度高 3. 地图探索页新颖 | * 竞品与本产品的差异: 1. 主要目标用户不同:本产品的主要目标用户是儿童和家长,而花伴侣的目标用户更为广泛,适合植物爱好者、大中小学生及家长 2. 主要功能不同:本产品主要的核心功能是拍照识别和语音播报这两个,且都属于人工智能,这两个主要核心功能契合目标用户的需求;而花伴侣的功能较多,但大多不属于人工智能 **总结**:两款产品各有各的优势所在,主要是产品的主要目标用户不同,所以出拍照识别外的其他功能也不相同,但总的来说本产品的针对性更强一些,更适合儿童及家长使用 # 六、该产品未来发展路线构想 * 发展理念:由当前的拍照识别基本功能延伸出其他附属功能,首先满足基本的植物识别、果蔬识别和语音合成的功能,针对主要目标用户的需求,以优化使用体验为目标,最终实现功能更强大、用户粘度更强的拍照识别类产品 ## 产品迭代过程构思 V1.0 * 实现植物识别功能,返回植物名称、置信度、百科信息,满足用户对了解植物方面的需求 * 实现果蔬识别功能,返回果蔬名称、置信度,帮助用户了解更多果蔬,分辨相似果蔬 * 实现语音合成功能,将识别返回的文字进行语音播报,帮助儿童理解文字内容 V2.0 * 以提高用户体验为目标,对页面进行优化完善,呈现更好的界面 * 对成就页面进行优化,使用户点击后可以再次查看识别结果 * 对个人中心进行优化,增加使用按钮 * 融入分享功能,用户可以分享识别信息或科普信息 V3.0 * 融入语音翻译API,实现不同语种之间的转换,在识别后可进行语音翻译,提高孩子的学习兴趣 * 在故事详情页融入图画,提高孩子的兴趣 * 增加地图功能,在地图页面可以查看附件的植物有哪些,引导孩子走出户外,去了解更多的植物 V4.0 * 在识别结果页增加海报生成功能,支持用户自助生成分享海报 * 增添游戏功能,比如识花跳转、植物绘画等 # 七、一分钟版本: 植物种类丰富多样,小孩子的好奇心总会驱使他们去了解清楚他们想了解的物种,“为什么”是无限的,而家长的知识和时间确是有限的,当小朋友突然问到植物名称的的时候,大人可能并不知道,无法作答,这样就限制了小朋友知识面的扩展,而本产品融入的植物识别API、果蔬识别API和语音合成API,可以在拍照识别后返回识别到的植物名称、置信度等信息,同时提供语言播报,通过使用语音合成API将文字通过语音形式念出来,帮助儿童更好的理解文字内容,科普植物方面的知识;除此之外,还提供了故事功能,让儿童可以享受有声故事 # 八、心得总结及感谢 在本次的PRD文档撰写和原型设计过程中,明白了开发一款产品的不易,需要考虑很多方面,比如需要站在用户的角度思考,分析目标用户的需求和使用场景,需要考虑产品的可行性和市场价值等等,而撰写PRD文档也并不想想象的那么容易,有很多点是写之前没有考虑到的,总之第一次撰写PRD是一次经历更是一场收获,感谢API课程让我学到了很多以前从未想过的,比如API的调用,让我真真切切感受到了数据的魅力所在 同时要感谢提供项目参考的学姐,让我在最初写文档的时候有参考模板,能让我从中对比,看到自己文档的不足,不断修改完善;感谢百度AI开放平台,为本产品提供了技术方面的支持,解决了代码方面的问题;最后感谢所有互评的同学,有肯定的鼓励,也有批评的建议,让我能从别人眼中看到本文档的不足并作出修改 这是我参考的师姐的项目链接: * [黄滢师姐——Savor ](https://github.com/NFUNM032/app-of-savor) * [詹晓燕师姐——Art Gallery(美术馆导览APP)](https://github.com/xlayal/Art_Gallery_Tour) 百度AI开放平台文档参考链接: * [植物识别API技术文档](https://ai.baidu.com/ai-doc/IMAGERECOGNITION/Mk3bcxe9i) * [果蔬识别API技术文档](https://ai.baidu.com/ai-doc/IMAGERECOGNITION/wk3bcxevq) * [语音合成API技术文档](https://ai.baidu.com/ai-doc/SPEECH/Gk38y8lzk) 相关文档参考链接: * [植物识别软件设计的未来发展趋势](https://wk.baidu.com/view/1c78358bbbd528ea81c758f5f61fb7360b4c2b12) * [人工智能识别植物,让你秒变“探花郎”](http://www.360doc.com/content/20/0616/14/57935769_918796876.shtml) > * 本文档中所用到的原创图片汇总(除必要的界面流程图数据流程图外共26张):[https://gitee.com/qiu33/API/tree/master/API_img](https://gitee.com/qiu33/API/tree/master/API_img) > > * 本文档中独特非重复有效外链URL共17条,详见上文细数 > > (如学习系统PPT无法下载,可点击该链接:[20x20PPT下载](https://gitee.com/qiu33/API/tree/master/PPT))