# API_final **Repository Path**: xinyilynn/API_final ## Basic Information - **Project Name**: API_final - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2020-07-13 - **Last Updated**: 2024-11-28 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ### 迭代二 [迭代二Github/Gitee的diff连结](https://gitee.com/xinyilynn/API_final/compare/972dea7f83901d3b41545657c764e0c134e5a847...6796f921d245e81f6fbb2cfdcda3b758f08c2054) 修改主要内容 1. 增加利害相关者分析图 2. 增加界面流程图细节 3. 修改商业可行性,技术可行性,用户可欲性 4. 修改心得与感谢,增加参考链接 5. 修改最小可行性产品的描述 6. 修改层级关系,使报告更加规范 # 电子笔记本 |文档名称|电子笔记本—产品需求文档| |--|--| |产品名称|电子笔记本| |产品描述|一款通过ocr技术、语音识别技术,帮助大学生快速整理各种类型笔记。| |产品版本|1.0| |文件现状|进行中| |文件作者|林心怡| ## 加值宣言 我认为现在市场上专门提供整理笔记的产品还很少,具有较大的市场空间。而电子笔记本主要运用通用文字识别api,通过文字提取OCR技术,将图片内的文字提取出来,达成文档快速录入的目的。调用讯飞语音转写API,运用语音识别技术。可以将在课堂上拍摄的ppt图片、在纸上记录的内容、录制的音频等琐碎零散的内容整理成册,形成电子笔记。同时运用与百度文章标签api,帮助学生们快速整理笔记,将笔记分门别类。 ## 需求概况 ### 产品背景 * 脱离了高中高强度的学习环境,脱离了高中高强度的学习环境的同时,可能会忘记高中的学习习惯,很多大学生在上课的时候图方便,会选择拍照记录关键的ppt,**但是课程多与杂,会给课下整理笔记带来负担,期末复习时需要去翻看查找也会很麻烦。** ### 产品市场 * 调研目前手机APP市场的了解,发现大多数笔记型都是以云记录类型的笔记app为主,本地笔记软件逐渐升级为云笔记软件,大大的提高了人们记录和查看笔记的便捷性,但是在功能上很少提及文字处理,比如转图片为文字的产品。尽管有也很少有软件支持识别手写体。 ### 市场概述 1. 电子笔记本应用市场概述 > 根据易观千帆发布的2018年1月的移动APP商务办公领域现状分析显示,商务办公领域主要由邮箱,云盘,OFFICE,记事本/备忘录及翻译工具组成。其中记事本/备忘录的活跃人数为3523.8万,活跃人数在全网的渗透率仅为3.6%,在商务办公领域活跃用户数排名第四,与排名第一的邮箱相差约3696.2人。由此可见记事本/备忘录行业并不乐观,但发展空间较大。 信息时代日常生活和工作中需要传递的信息量都变的异常巨大,每个人对信息筛选、整理、记录和获取的能力都需要提高。信息记录的方式必须多媒体化,不再单单只是文字。可能是图片,可能是视频,可能是语音。但是市场上笔记型api主打的卖点是云,反而忽略了多种媒体转文字这个形式,我认为文字永远都是最直观的表现手法,但是这个还是在行业的遗忘角落,并没有将他们整合在一起。 2.市场特征 * 人们对于记事本/备忘类产品的需求较为稳定,有小幅度上升趋势,所以该类产品有较为稳定的市场。 ![笔记市场的月活跃人数报告](https://images.gitee.com/uploads/images/2020/0718/234040_23051a63_2232253.png) * 该产品不仅用于记录笔记,在办公方面也有比较健全的功能,当今中国有近两亿的白领,还有随着教育质量不断提高数量逐年递增的大学生,他们都是这类产品的使用主力,因此该类产品用户天花板高。 * 随着智能手机的飞速发展,使用手机的用户群体日渐壮大,中国手机网民人数达到8.17亿。如此大的人口基数,也为之提供了大量的潜在用户,有道云笔记应该更大程度地优化完善产品,挖掘更多的潜在用户。 3.发展优势 * 文字提取功能有着广阔的市场,痛点明显,有一定的开发价值 * 支持多种形式的记录,帮助用户更好的整理记录内容。 * 目前功能型笔记app市场广阔,竞争对手很少,竞争力小。 ## 二、核心价值(最小可行性产品) 着眼于解决用户对于多种形式笔记记录的要求。电子笔记本将提供用户图片转文字,语音转文字,印刷体手写体识别等功能。 #### 用户痛点 1.平时记录方式多而杂,不能统一整合。 2.图片需要点击,放大查看,浪费时间。 3.速记不能分门别类的存放,等到要查看时,浪费时间。 ## 三、用户分析 1.目标用户群 * 核心用户:15-25岁需要及时记下笔记,以备复习回顾的学生群体。 * 主要用户:有记录习惯或及时记录要求的职业 2. 用户画像及使用场景 ![核心用户](https://gitee.com/xinyilynn/API_final/raw/master/image/%E6%A0%B8%E5%BF%83%E7%94%A8%E6%88%B7%20%E7%94%A8%E6%88%B7%E7%94%BB%E5%83%8F.png) 使用场景:小枫是一名正在读大二的学生,他学习的是汉语言专业,在专业课上有很多重要的知识,以ppt形式呈现,但是老师讲课速度比她的手写速度快,无奈之下他只能选择拍照记录的方式。但是课后面对这么多张ppt照片,他感到头疼。 ![主要用户](https://gitee.com/xinyilynn/API_final/raw/master/image/%E4%B8%BB%E8%A6%81%E7%94%A8%E6%88%B7%20%E7%94%A8%E6%88%B7%E7%94%BB%E5%83%8F.png) 使用场景:小刘是一名家装设计师,在与客户谈论装修方案时,客户总是有很多想法,小刘来不及记录。有时甚至记录下来的关键词,不能产生联想,遗忘某些用户要求。用录音的方式又会很浪费时间。小刘感到十分苦恼。 ## 四、核心价值 |用户痛点|API加值| |--|--| |查看拍摄的ppt需要点击,放大查看,浪费时间。|百度通用文字识别API| |速记不能分门别类的存放,等到要查看时,浪费时间。|百度文章标签API| |音频文件需要挨个听过,不能直接得到信息。|讯飞开放平台语音转写| 五、人工智能概率性与用户痛点 百度智能云市场中的通用文字识别API与文章分类识别API,讯飞开放平台语音转写API有以下优点 |图片文字提取技术|文章标签技术|语音转写技术| |--|--|--| |高精度, 基于业界领先的深度学习技术,提供多场景、多语种、高精度的整图文字检测和识别服务,多项ICDAR指标居世界第一 |对文章进行核心关键词分析|讯飞开放平台拥有先进的语音识别技术,核心技术达到先进水平,语音识别准确率已经达到实用标准| |对图片中的文字进行检测和识别,支持中、英、法、俄、西、葡、德、意、日、韩、中英混合等10种语言识别,同时支持中、英、日、韩四语种的类型检测|文章标签服务对文章的标题和内容进行深度分析,输出能够反映文章关键信息的主题、话题、实体等多维度标签以及对应的标签置信度|运用超大规模的语言模型,智能预测语境,提供智能断句和标点符号的预测。| * 这款产品调用了百度通用文字识别,该技术的精度领先于业界,提供高精度的文字识别,帮助用户更精准识别图片,得到自己想要的信息。同时文章分类技术,在扫描文章后,可以提取出关键词。而讯飞的语音转文字技术以高精度为卖点,提供精确的转化服务。 ### 需求列表 |API技术|用户场景|优先级| |--|--|--| |百度通用文字识别API|提供图片转文字服务|A(重要) |讯飞开放平台语音转写|提供语音转文字服务|A(重要) |百度文章标签API|提供扫描文章,为文章贴上标签|B(次重要) ### 利害相关者分析 ![利害相关者分析](https://gitee.com/xinyilynn/API_final/raw/master/image/%E7%94%B5%E5%AD%90%E7%AC%94%E8%AE%B0%E6%9C%AC%E5%88%A9%E5%AE%B3%E7%9B%B8%E5%85%B3%E8%80%85%E5%88%86%E6%9E%90.png) ##六、产品结构图 1.产品功能结构图 ![产品功能架构图](https://gitee.com/xinyilynn/API_final/raw/master/image/%E4%BA%A7%E5%93%81%E5%8A%9F%E8%83%BD%E6%9E%B6%E6%9E%84%E5%9B%BE.png) 2.用户流程图 ![用户流程图](https://gitee.com/xinyilynn/API_final/raw/master/image/%E7%94%B5%E5%AD%90%E7%AC%94%E8%AE%B0%E6%9C%AC%E7%94%A8%E6%88%B7%E6%B5%81%E7%A8%8B%E5%9B%BE.png) 3.数据流程图 ![数据流程图](https://gitee.com/xinyilynn/API_final/raw/master/image/%E6%95%B0%E6%8D%AE%E6%B5%81%E7%A8%8B%E5%9B%BE.png) 七、数据推理 ## 八、产品原型及交互设计 #### 产品界面流程图 图片扫描 ![产品界面流程图1](https://gitee.com/xinyilynn/API_final/raw/master/image/%E7%95%8C%E9%9D%A2%E6%B5%81%E7%A8%8B%E5%9B%BE_%E6%8B%8D%E7%85%A7%E6%89%AB%E6%8F%8F.png) 语音扫描 ![产品界面流程图2](https://gitee.com/xinyilynn/API_final/raw/master/image/%E7%95%8C%E9%9D%A2%E6%B5%81%E7%A8%8B%E5%9B%BE_%E8%AF%AD%E9%9F%B3%E6%89%AB%E6%8F%8F.png) 标签扫描 ![产品界面流程图3](https://gitee.com/xinyilynn/API_final/raw/master/image/%E7%95%8C%E9%9D%A2%E6%B5%81%E7%A8%8B%E5%9B%BE_%E6%96%87%E7%AB%A0%E6%A0%87%E7%AD%BEpng.png) 产品原型 ![产品原型](https://gitee.com/xinyilynn/API_final/raw/master/image/%E4%BA%A7%E5%93%81%E5%8E%9F%E5%9E%8B.png) 主要页面 ![主要页面](https://gitee.com/xinyilynn/API_final/raw/master/image/%E5%8E%9F%E5%9E%8B_%E6%80%BB%E4%B8%BB%E8%A6%81%E9%A1%B5%E9%9D%A2.png) ## 九、API的运用和对比 ### 百度通用文字识别API * HTTP 方法:POST * 接口描述:基于业界领先的深度学习技术,提供多场景、多语种、高精度的整图文字检测和识别服务,多项ICDAR指标居世界第一。 * 请求URL: https://aip.baidubce.com/rest/2.0/ocr/v1/general_basic * 请求方法:POST * 返回类型:json,图片内的文本提取 * API测试截图 ![百度通用文字识别api测试截图](https://gitee.com/xinyilynn/API_final/raw/master/image/%E7%99%BE%E5%BA%A6%E9%80%9A%E7%94%A8%E6%96%87%E5%AD%97%E8%AF%86%E5%88%ABAPI.jpg) * 通用文字技术API对比 * 百度通用文字API:对图片中的文字进行检测和识别,支持中、英、法、俄、西、葡、德、意、日、韩、中英混合等10种语言识别,同时支持中、英、日、韩四语种的类型检测。提供高精度扫描功能,针对图片模糊、倾斜、翻转等情况进行了优化,鲁棒性强,识别速度快,且支持2W+大字库,总体识别准确率高达99%。 * FACE++ API:只能识别已发布的模板,一次只能识别一张待识别图片 * 阿里云API : 我们提供的服务核心包含4大类: 1:卡证类识别:如身份证、行驶证、驾驶证、银行卡、营业执照等证件类文字识别;2:行业文档图片文字识别:如电商行业相关图片识别,法律行业文档类的全文识别等; 3:实体标识识别;4.自定义模板识别 ### 讯飞语音转写API * HTTP方法:POST * 接口描述:语音转写(Long Form ASR)基于深度全序列卷积神经网络,将长段音频(5小时以内)数据转换成文本数据,为信息处理和数据挖掘提供基础。 * 返回类型:json档,语音转文字 * API测试截图 ![讯飞API测试截图](https://gitee.com/xinyilynn/API_final/raw/master/image/%E8%AE%AF%E9%A3%9E%E8%AF%AD%E9%9F%B3%E8%BD%AC%E5%86%99API.jpg) 语音转写api对比 讯飞语音转写API:讯飞开放平台拥有先进的语音识别技术,核心技术达到先进水平,语音识别准确率已经达到实用标准。 * 支持个性化热词 用户可将一些非常见的词汇上传至识别引擎,当实时转写的音频流中出现该词汇时,引擎可将其识别出来,提高专业用语识别准确率。 * 标点智能预测 运用超大规模的语言模型,智能预测语境,提供智能断句和标点符号的预测。 * 文字格式智能转换 对结果中出现数字、日期、时间等内容格式化成规整的文本。 百度语音转写API: * 技术领先识别准确 基于Deep Peak2端到端建模,超过10万小时数据训练,多采样率多场景声学建模,近场中文普通话识别准确率达98% * 多语种识别 支持普通话和略带口音的中文识别;支持英文识别 * 智能语言处理 使用大规模数据集训练语言模型,对识别中间结果进行智能纠错,并根据语音的内容理解和停顿智能匹配合适的标点符号,。!? * 多种调用方式 支持WebSocket API,支持Android、iOS、Linux SDK,可以在多种操作系统、多种设备终端上调用,快速上手,简单易用 * 毫秒级实时识别音频流 首包响应时间毫秒级,并实时展示中间文字结果,快速识别音频流 * 文字识别结果支持时间戳 识别返回的文字结果带有时间戳,展示VAD切分句子开始和结束时间,方便进行功能开发 阿里实时语音转写API: *识别准确率高 国内独创的字级LC-BLSTM/DFSMN-CTC建模,相对业界传统CTC方法降低了20%的错误率,大幅提高了语音识别的精度。 * 超快的解码速率 国内独创的LFR解码技术,在不损失识别精度的情况下,将解码速率提高了3倍以上,大幅缩短了反馈时间,提升用户体验。 * 独创的模型优化工具 可以结合模型优化工具子产品,针对特定的领域定制专属模型,最大限度的提升识别效果。 * 广泛的领域覆盖 广泛的领域覆盖,支持金融、保险、司法、电商、智能家居等多个领域。 ### 百度文章标签API * HTTP方法:POST * 接口描述:文本标签服务对文章的标题和内容进行深度分析,输出能够反映文章关键信息的主题、话题、实体等多维度标签以及对应的置信度,该技术在个性化推荐、文章聚合、内容检索等场景具有广泛的应用价值。 * 返回类型:json档,提供分析的选项 * API测试截图 ![百度文章标签API](https://gitee.com/xinyilynn/API_final/raw/master/image/%E6%96%87%E7%AB%A0%E6%A0%87%E7%AD%BEAPI%E8%B0%83%E7%94%A8.png) * 技术领先识别准确 文章标签服务对文章的标题和内容进行深度分析,输出能够反映文章关键信息的主题、话题、实体等多维度标签以及对应的标签置信度 * 维度丰富应用广 包含多维度信息,全面覆盖文章关键信息主题,可广泛应用在文章聚合、个性化推荐、内容检索等场景中 文章标签API到目前为止,我只找到百度api平台有。 API使用价格 * [百度通用文字识别api价格](https://cloud.baidu.com/doc/NLP/s/Sk3pmn0o5) ![百度通用文字识别API价格](https://gitee.com/xinyilynn/API_final/raw/master/image/%E7%99%BE%E5%BA%A6%E9%80%9A%E7%94%A8%E6%96%87%E5%AD%97%E8%AF%86%E5%88%ABAPI%E4%BB%B7%E6%A0%BC.jpg) 每日 50000 次免费调用量,免费额度用尽后按照如下价格进行计费。如需付费使用,可点击 购买次数包 或开通按量后付费,如需扩充 QPS,可购买 QPS 叠加包 *[讯飞语音转写API价格]( https://www.xfyun.cn/services/lfasr) ![讯飞语音转写API价格](https://gitee.com/xinyilynn/API_final/raw/master/image/%E8%AE%AF%E9%A3%9E%E8%AF%AD%E9%9F%B3%E8%BD%AC%E5%86%99API%E4%BB%B7%E6%A0%BC.jpg) 1、平台免费赠送的时长为5小时,供测试使用,每个账户限领取1次; 2、后台计量系统根据您的实际使用情况,以秒为单位向上取整,进行使用量扣除; 3、订单和套餐使用情况可在“控制台”查看 4、本产品一经购买,不支持退货; 5、扣量优先级:免费试用>批量购买,即在“批量购买”的套餐额度剩余的情况下,又领取了免费试用的体验包,则领取的免费试用体验包立即生效,并被设定为当前扣量套餐。而之前购买的套餐包的额度和到期日不变。 *[百度文章标签api价格]( https://cloud.baidu.com/product/nlp_apply/doctagger) ![百度文章标签api价格](https://gitee.com/xinyilynn/API_final/raw/master/image/%E7%99%BE%E5%BA%A6%E6%96%87%E7%AB%A0%E6%A0%87%E7%AD%BEapi%E4%BB%B7%E6%A0%BC.png) 1、按量后付费 对您实际产生的计费调用量按固定单价进行计费结算,系统每小时从您的百度云账户中扣除对应的消费额。 2、预付费次数包 您可根据业务量评估,提前一次性付费购买对应规格的次数包,在有效期内产生计费的调用量优先使用次数包抵扣,所有有效次数包抵扣完毕后再自动转为按量后付费方式。(次数包规格越大,单价越低) ### 产品使用可行性 (1)技术可行性 1.该产品具有明确的核心价值和使用需求 2.在实现产品主要功能的技术中,我们选用了高精度、高准度、业界领先水平的api。 3.该产品存在小概率的失误风险,但是不影响用户的使用。 (2)商业可行性 1.市场还是处于一个被遗忘的角落,但是拥有着巨大的潜力。 2.用户需求明确,并且用户群体庞大所有 有文字记录要求的人群,都可以使用。最小可行性产品可以满足他们的需求。 (3)用户可预性 1.多次识别 2.精准的识别精度 ### API使用风险评估 错误现象及处理办法 * 文字识别不准确——提示用户重新上传,或者升级api * 语音识别不准确——提示用户重新上传,或者升级api * 扫描标签不准确——提示用户手动设置 ## 竞品分析 下面挑选两款比较流行的笔记类APP作为竞品分析:印象笔记和有道云笔记 有道云笔记是一款个人与团队的线上资料库,支持多种附件格式,能够实时增量式同步,即每次只同步修改的内容而不是整个笔记,同时采用“三备份存储”技术,确保用户数据的高安全性和稳定性。 印象笔记作为一款多功能笔记类应用,支持所有主流平台系统,并可实现全平台之间的信息同步,同时它还支持剪辑网页、深度搜索、团队协作等功能。 ![有道云结构图](https://images.gitee.com/uploads/images/2020/0718/234040_691e04e6_2232253.png) ![象印结构图](https://images.gitee.com/uploads/images/2020/0718/234040_07ed7ea8_2232253.png) 这两款市面上主流的笔记app,他们主打的都是云共享,多平台同步。虽然也有提供图片和语音的识别,但是都是辅助功能,精确度不高。 ## 产品更新迭代过程 * 1.0 通用文字识别,语音转文字,文章标签设置。 * 2.0 提供教育场景识别,支持手写体识别。 * 3.0 增加会员高精准识别服务。 * 4.0 建立自习室功能,同一社群交流学习。 学习/实践心得总结及感谢 学习/实践心得总结 学习心得:学习到人工智能的相关知识,学会API的调用,这对于产品经理来说是一项必备的技能,得调用后才知道该API的优点和缺点,API并不是万能的。另外学会了以用户为中心,站在用户的角度去考量。完成这个期末项目,也让我初步了解产品的PRD文档如何撰写,如何帮助同行或者是普通人更加了解自己的产品。 本项目的整体框架,参考了[美术馆导览](http://xlayal.gitee.io/art_gallery)的原型设计,以及[savor](https://github.com/NFUNM032/app-of-savor)的产品需求文档的大纲。感谢两位优秀学姐的优秀作品,赋予了我项目的基本架构。 感谢网上大神对于精炼通用物体与场景API的调用,文章内容详细明了,感谢下列文章的技术支持,帮助我完成讯飞api的调用,百度文章标签api的调用,完成利害相关者图,完成数据流程图等任务,特此在这里表示感谢。 [讯飞调用文章](https://blog.csdn.net/TomorrowAndTuture/article/details/100008718) [百度标签文档](https://cloud.baidu.com/doc/NLP/index.html) [百度通用文字识别](https://cloud.baidu.com/product/ocr/general) [利害相关者分析](http://www.woshipm.com/pmd/618261.html) [数据流程图](https://www.edrawsoft.cn/data-flow-symbols/) [竞品分析](https://www.baidu.com/link?url=hKdzFo79l1zysZVRszypKeA8YaxTK--RhfnFh3KZenuySUj_hOsix2gQUiYASVUS&wd=&eqid=ceab16c6001d920e000000035f195195) 最后感谢百度AI开放平台和讯飞开放API平台,提供在线检测和开发技术文档、免费的调用次数。给我们学生体验API的机会,让我们有机会了解人工智能这个充满未来感与科技感的世界。