# API **Repository Path**: hanxingting/API ## Basic Information - **Project Name**: API - **Description**: 2020API课程项目 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-07-18 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 图片笔记APP --- ### 产品概览 文档名称 | 图片笔记APP产品需求文档 ---|--- 产品名称 | 图片笔记 产品描述 | 一款利用图像识别对相册进行分类整理,文字搜索,对大量图片的快速检索功能,提升用户体验的APP。 产品版本 | 2.0 文件现状 | 进行中 文件作者 | 韩星婷 ### 迭代二的改进内容 迭代二 | 改进内容 ---|--- 1 | 修改内容排版顺序,使文档看上去更有条理 2 | 增加产品概览,对版本与文件现状进行阐述 3 | 增加利害相关者图,研究其中关系 4 | 增加产品的内容框架图,使其架构更加清晰明了 5 | 增加设计中的三个可行性分析 6 | 编辑了代码部分可能会泄露隐私的token 7 | 增加市场概述部分内容,对市场有更深的了解 8 | 增加数据推理内容,更完善对数据的分析 #### 这是我的迭代一与迭代二版本对比的[Gitee的diff连结](https://gitee.com/hanxingting/API/compare/ba5029e0a4fba214e4852d8b9fc6a9c6fb25b795...23f9e956122283ce6fef816f092433d43bf89935) ### 一、MVP加/价值主张宣言 #### 1.加/价值主张宣言 **加值宣言** 对于图片笔记的项目名称,本着这是一个对图片进行笔记功能进行图片搜索,所以起名为图片笔记。针对用户管理相册图片的最基本需求,通过图像分析功能,系统可自动识别图片中的文字、物体,并对图片进行分类,用户可通过文字智能搜索出图片。 **价值主张宣言** 我认为目前市场上对于照片管理以及高效查找想要的照片的产品功能参差不齐,图片笔记就是针对该痛点对现在已有的照片类APP进行整合和优化。其中,该APP使用到的人工智能技术有:百度AI开放平台的通用物体和场景识别API,OCR文字识别API。 #### 2.问题情境 - 随着科技的高速发展,人们对手机里相机功能的要求也不断提高,越来越多人喜欢用手机来拍照,相册里的照片也越来越多。不管是生活照片、手机截屏还是文档工作等图片保存在相册中都难以管理,加上照片越来越多管理起来也很麻烦,想要找一张图片要花好久的时间。 - **解决方案**:用户使用图片笔记APP进行相册管理搜索,通过图像分析功能,系统可自动识别图片中的文字、物体,并对图片进行分类,用户可通过文字智能搜索出图片。实现了用户对大量图片的快速检索功能,提升用户体验。主要运用到图像识别API技术与通用文字识别API技术,已广泛开始使用到市场中,具有一定的可行性。 - **人工智能概率性考量** > 曾在微软工作过的黄鼎隆认为人工智能+图片搜索更具有价值,也是将人工智能技术推向成熟商业化的最短路径,他认为在图片搜索背后拥有一个千亿级的市场。背后的技术逻辑是相通的:通过机器学习,分析上亿个训练素材,从而形成对图片中各种元素的认识和了解后,机器就可以根据某一素材的「内部规律」,识别和搜索目标图片中的语义标签。根据黄鼎隆给出的数据,目前 Product AI 能够识别的㲏准确率已经优于人工识别,而相对于原本传统的「人工贴标」的方式,这家公司提供的解决方案提高了 8% 左右。 #### 价值主张画布 ![画布](https://images.gitee.com/uploads/images/2020/0718/181239_d98139e6_2230652.jpeg "价值主张画布.jpg") ### 二、问题表述与需求列表 #### 市场概述 1. 全球图像识别类市场概述 > 据麦姆斯咨询报道,2016年,全球图像识别市场规模为159.5亿美元,到2021年将达到389.2亿美元,期间的复合年增长率将达到19.5%。全球图像识别市场成长的主要推动因素来自高带宽数据服务在零售业、金融和保险业的使用率增长。带有摄像头的智能手机和智能设备正吸引着厂商对这一市场加大投资。对具有图像识别功能的安全应用和产品的需求增长也促进了该市场的增长。零售、汽车、医疗保健和国防等不同领域的各家公司采用图像识别技术的趋势越来越明显。低分辨率和存储空间不足则是该市场面临的挑战。 从目前来看,图像识别的技术已趋于成熟,其中图像识别市场的前景趋势还在增长,许多厂商对此进行投资。在相册图片管理类应用的领域,目前已有例如:百度网盘、Sidebox等。但是数量相对其领域较少,有很大的发展前景。 2. 市场特征 相册管理类APP市场广阔,目前正处于起步阶段。还没有出现行业龙头。 面对繁杂的相册图片,疏于管理,用户需求市场较大。 对图像识别的技术商业化得到运用。 3. 发展优势 目前图像识别、图片管理市场广阔,竞争压力较小。 对用户需求的通痛点明显,具有一定的开发价值。 可以为用户解决相册图片过多繁杂、不易整理的需求,将会受到欢迎。 #### 问题表述 随着科技的高速发展,人们对手机里相机功能的要求也不断提高,越来越多人喜欢用手机来拍照,相册里的照片也越来越多。不管是生活照片、手机截屏还是文档工作等图片保存在相册中都难以管理,加上照片越来越多管理起来也很麻烦,想要找一张图片要花好久的时间。 #### 用户痛点 - 很难在凌乱的相册中快速找到自己想要的图片。 - 需要花大量时间整理相册,删除不需要的相片、截屏等。 - 凌乱的相册图片中有许多没有用的照片但是没有整理占据了很大的内存。 #### 使用情境与用户画像 **用户画像1** ![输入图片说明](https://images.gitee.com/uploads/images/2020/0720/031359_f3944de3_2230652.png "画像2.png") **使用情境1**:小果是一名热爱追星墙头无数并且喜欢用拍照记录生活的大三学生,随着喜欢上不同的明星,并且每天随手拍照记录生活,相册里的图片也越来越多,手机内存也渐渐不足。经常不能在相册里快速找到想要的图片。这时,她了解到图片笔记APP,照片自动分类整理,并且能图片转文字进行备注,再也不怕不能找到自己想找的图片了。 **用户画像2** ![输入图片说明](https://images.gitee.com/uploads/images/2020/0720/031422_fc45b183_2230652.png "画像1.png") **使用情境2**石头是一个24岁刚毕业进入社会工作的新人。工作压力很大,手机相册里存着许多工作需要的文件与笔记材料,以此进行备份记录。随着图片越来越多,每次在需要这些材料时,都得在相册里找很久。这时他被同事安利了图片笔记APP,照片自动分类整理,并且能图片转文字进行备注,再也不怕不能找到自己想找的图片了。 #### 需求列表与API智能加值 用户需求 | 使用情境 | API使用| ---|------|--- 相册图片杂乱无章 | 打开相册发现所有图片都混在一起 | 通用物体和场景识别 & 图像主体检测 API 快速查找图片 | 想要在庞大的相册图库中快速找到一张所需图片 | 通用文字识别(OCR) API #### 需求列表与优先级 优先级 | 需求 | 智能加值 | API类型 | ---|------|------|--- A(重要) | 识别照片中的内容 | 是 | 通用物体和场景识别 A(重要) | 分类出相册中的照片 | 是 | 图像主体检测 B(较重要) | 快速查找图片 | 是 | 通用文字识别(OCR) #### 利害相关者分析 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/193624_768ad2b5_2230652.png "利益相关者.png") ### 三、界面流程及关键智能交互 #### 用户体验旅程描述 用户需求 | 使用情境 | 界面操作| ---|------|--- 相册图片杂乱无章 | 打开相册发现所有图片都混在一起 | 打开首页分类让APP获取权限自动分类照片 快速查找图片 | 想要在庞大的相册图库中快速找到一张所需图片 | 点击搜索笔记关键字,查找相应图片 删除照片 | 无用的图片占据了很大的内存| 点击管理进入照片页面上滑删除下滑保留图片快速管理 #### **解决方案原型描述** 该产品有三个智能功能,便将底栏分为两部分。 - [首页面](https://modao.cc/app/0290b5eee70a786e0daa511b3052f14c77ab8d56?simulator_type=device&sticky):管理相册。用户进入的第一个页面是展示相册的最近照片可进行管理。 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/194548_4e4b146e_2230652.png "首页.png") - [分类页](https://modao.cc/app/0290b5eee70a786e0daa511b3052f14c77ab8d56?simulator_type=device&sticky):笔记分类的目录,用户可以点击不同的类别从而查看不同的笔记内容。以美食分类为例,当用户点击进入美食分类时,界面显示不同时间拍摄的关于美食的图片。 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/194612_08f5bfd6_2230652.png "笔记分类.png") - [搜索页](https://modao.cc/app/0290b5eee70a786e0daa511b3052f14c77ab8d56?simulator_type=device&sticky):输入标签关键字快速搜索到图片笔记内容。 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/194626_8e53c7de_2230652.png "搜索.png") 还有更多页面请点击下方原型展示链接进行查看。 #### 产品原型及交互 [原型展示](https://modao.cc/app/0290b5eee70a786e0daa511b3052f14c77ab8d56?simulator_type=device&sticky) #### 设计可行性 - **用户可欲性(Desirability)**:符合用户快速管理相册的需求,占用用户设备内存少并能让效果实现最大化。 - **技术可行性(Feasibility)**:通过图像分析功能,系统可自动识别图片中的文字、物体,并对图片进行分类,用户可通过文字智能搜索出图片。 - **商业可行性(Feasibility)**:开发成本较低,功能主要是通过调用API实现,支持标准化接口封装,调用简单,只需获取用户相册的权限调用AI开放平台的API即可获取识别结果,经过对市面上相册管理类APP的调查,发现其中不乏有几款APP,但是其功能都很单一,将这些功能进行整合在一起的APP少之又少。另外,随着人工智能的高速发展,让图像处理变得更加简便,用户对于只需一个APP便能对相片进行高效管理的APP是需要的。 #### 产品结构图 ![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/193642_f19cebda_2230652.png "内容架构.png") #### **用户流程图** ![用户流程](https://images.gitee.com/uploads/images/2020/0718/181333_4c3dc3db_2230652.jpeg "用户流程图.jpg") **核心页面智能交互** ![智能交互](https://images.gitee.com/uploads/images/2020/0718/181413_6b38426f_2230652.jpeg "智能交互.jpg") ### 四、数据流程及关键智能 API 使用 #### 人工智能API加持 - 通用物体和场景识别 & 图像主体检测 API | 功能优势 | 解决痛点 | | :---: | :---: | | 基于百度海量数据,利用深度学习技术及高精度算法不断迭代模型,准确率业界领先 | 保证识别的准确性以更好地分类 | | 支持识别动物、植物、商品、建筑、风景、动漫、食材、公众人物等10万个常见物体及场景,接口返回大类及细分类的名称结果 | 能更精准的对图片进行分类 | 检测出图片中多个主体的坐标位置,并给出主体的大类标签和标签的置信度得分,对海量图片进行分类、打标签 |辅助物体识别,让结果更加精准。 | - 通用文字识别(OCR) API | 功能优势 | 解决痛点 | | :---: | :---: | | *支持多语种识别*: 通用文字识别、含位置信息版支持对中、英、法、俄、西、葡、德、意、日、韩、中英混合等多语种内容的识别,并支持中、英、日、韩四语种的类型检测 | 能够识别多种类型的字体内容,能解决大多数的识别问题 | | 使用通用文字识别技术,实现拍照文字识别、相册图片文字识别和截图文字识别,可应用于搜索、书摘、笔记、翻译等移动应用中,方便用户进行文本的提取或录入,有效提升产品易用性和用户使用体验 | 能够文字输入标签快速查找所需图片 | #### **数据流程图** ![输入图片说明](https://images.gitee.com/uploads/images/2020/0718/195332_f775fdaf_2230652.jpeg "数据流程图.jpg") #### 数据推理 序号 | 问题 | 回答 ---|------|--- 1 | 我们在页面上呈现什么内容 | 相册概览和智能分类、快速搜索 2 | 向用户输出的结果内容从哪里来 | 通过获取用户的照片去开放平台调用api,获得结果内容。 3 | 照片如何实现分类? | 通过调用通用物体和场景识别 & 图像主体检测API返回图像的类别,给图片打上标签分类。 #### **商业可行性** > 据麦姆斯咨询报道,2016年,全球图像识别市场规模为159.5亿美元,到2021年将达到389.2亿美元,期间的复合年增长率将达到19.5%。全球图像识别市场成长的主要推动因素来自高带宽数据服务在零售业、金融和保险业的使用率增长。带有摄像头的智能手机和智能设备正吸引着厂商对这一市场加大投资。对具有图像识别功能的安全应用和产品的需求增长也促进了该市场的增长。零售、汽车、医疗保健和国防等不同领域的各家公司采用图像识别技术的趋势越来越明显。低分辨率和存储空间不足则是该市场面临的挑战。 - API产品定价 - [通用文字识别](https://ai.baidu.com/tech/ocr/general) ![输入图片说明](https://images.gitee.com/uploads/images/2020/0718/182133_f936f2aa_2230652.png "文字识别价格.png") - [通用物体和场景识别](https://ai.baidu.com/tech/imagerecognition/general) - [图像主体检测](https://ai.baidu.com/tech/imagerecognition/object_detect) ![输入图片说明](https://images.gitee.com/uploads/images/2020/0718/182150_7721572f_2230652.png "通用图像价格.png") #### **技术可行性** ![输入图片说明](https://images.gitee.com/uploads/images/2020/0718/183902_0f59c2f0_2230652.png "分类效果.png") - 图像识别的分类不准确,造成用户在分类中看到不属于该类的图像。可以在每张图片点击查看详细时增加修改图像类别的功能,反馈后将图像归属到该类并反馈到API的训练数据集中。 - 文字识别的笔记内容不准确的情况下,用户可以再加上自己的描述来修改笔记内容对这张图片进行记录。 #### **用户可欲性** 对用户需求的通痛点明显,具有一定的开发价值。可以为用户解决相册图片过多繁杂、不易整理的需求,将会受到欢迎。 #### API代码调用 > 此软件中所采用的API服务均来自 **[百度AI开放平台](https://ai.baidu.com/)**,在调用各API接口之前需要获取到百度ai平台的access_token,获取token是需要向授权服务地址[授权服务地址](https://aip.baidubce.com/oauth/2.0/token)发送请求(推荐使用POST),并在URL中带上参数:grant_type/client_id/client_secret(必须的。) ### 1.[通用物体和场景识别](https://ai.baidu.com/tech/imagerecognition/general) - 接口描述:该请求用于通用物体及场景识别,即对于输入的一张图片(可正常解码,且长宽比适宜),输出图片中的多个物体及场景标签。 - 请求方法:POST - 接口链接:https://aip.baidubce.com/rest/2.0/image-classify/v2/advanced_general - 请求示例:![输入图片说明](https://images.gitee.com/uploads/images/2020/0718/181836_c9112db1_2230652.png "披萨2.png") - 请求结果示例:![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/193511_e0aaaa64_2230652.png "图像识别结果标记.png") ### 2.[通用文字识别](https://ai.baidu.com/tech/ocr/general) - 接口描述:基于业界领先的深度学习技术,提供多场景、多语种、高精度的整图文字检测和识别服务,多项ICDAR指标居世界第一。 - 请求方法:POST - 接口链接:https://aip.baidubce.com/rest/2.0/ocr/v1/gen - 请求示例:![输入图片说明](https://images.gitee.com/uploads/images/2020/0718/182053_27630c09_2230652.jpeg "不买.jpg") ![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/193543_5de0a3a1_2230652.png "文字识别标记.png") - 请求结果示例: ![输入图片说明](https://images.gitee.com/uploads/images/2020/0724/193603_4e121dd6_2230652.png "文字识别结果标记.png") #### **人工智能概率性考量** > 曾在微软工作过的黄鼎隆认为人工智能+图片搜索更具有价值,也是将人工智能技术推向成熟商业化的最短路径,他认为在图片搜索背后拥有一个千亿级的市场。背后的技术逻辑是相通的:通过机器学习,分析上亿个训练素材,从而形成对图片中各种元素的认识和了解后,机器就可以根据某一素材的「内部规律」,识别和搜索目标图片中的语义标签。根据黄鼎隆给出的数据,目前 Product AI 能够识别的㲏准确率已经优于人工识别,而相对于原本传统的「人工贴标」的方式,这家公司提供的解决方案提高了 8% 左右。 考量结果如下: - 通过调用通用物体和场景识别 & 图像主体检测API返回图像的类别,给图片打上标签分类。 - 通过获取用户的照片去开放平台调用api,获得结果内容。 #### 学习/实践心得总结及感谢 **心得** > 经过对市面上相册管理类APP的调查,发现其中不乏有几款APP,但是其功能都很单一,将这些功能进行整合在一起的APP少之又少。另外,随着人工智能的高速发展,让图像处理变得更加简便,用户对于只需一个APP便能对相片进行高效管理的APP是需要的。随着科技的发展,科技给我们的生活带来了更多便利,但是做一件产品并不是一件容易的事情。虽然如此,但我也会继续努力尽自己微薄的力量。我使用了百度AI开放平台的通用文字识别技术与通用图像和场景识别技术,才能开发出我的产品的PRD文档。科技发展的如此之快,真的要感谢百度AI开放平台上那么多开放的API供我们使用。真的给用户带来了许多便利,才能开发出更好的产品。 **感谢** - 感谢由[百度AI开放平台](https://ai.baidu.com/)提供API服务。 - 感谢我主要使用的两个API的产品技术文档:[通用物体和场景识别](https://ai.baidu.com/tech/imagerecognition/general)&[图像主体检测](https://ai.baidu.com/tech/imagerecognition/object_detect)、[通用文字识别](https://ai.baidu.com/tech/ocr/general)。 - 感谢[墨刀](https://modao.cc/)对我的产品的原型制作提供了帮助 - 感谢[process on](https://www.processon.com/)对我的图表制作提供了帮助。 - 价值主张画布部分参考了[“价值主张画布”是你必备的工具](https://www.jianshu.com/p/719d5ebe039e) - 人工智能概率性考量部分引用了:[人工智能+图片搜索背后的千亿级机会](https://dev.www.iyiou.com/p/35453.html) - 感谢同学们与老师们日常对我的帮助和教导。