# 提字产品需求文档 **Repository Path**: windyzone/api-final-project ## Basic Information - **Project Name**: 提字产品需求文档 - **Description**: 该产品着重为用户提供图片文字的识别,提取关键字,提供语音播放、翻译功能,为用户解决多方面需求问题。日常生活中,我们会遇到各种各样的文字处理任务,例如办公文档、广告文字信息、手写文字转换....... - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2025-04-22 - **Last Updated**: 2025-04-22 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## 一、产品总览 |**文档名称** | 《提字》—产品需求文档 | | :----| :------------ | |产品名称|提字-让用户轻松获取文字信息| |产品介绍|一款可智能识别图片文字信息、提取关键字,提供语音播放、翻译功能的产品。| |产品版本|1.0| |文件现状|进行中| |产品作者|温桂君| |智能API|百度通用文字识别、百度语音合成、自然语言处理-文章标签、百度翻译| #### - 该产品着重为用户提供图片文字的识别,提取关键字,提供语音播放、翻译功能,为用户解决多方面需求问题。日常生活中,我们会遇到各种各样的文字处理任务,例如办公文档、广告文字信息、手写文字转换....... ## 二、需求概述 ### 1、产品背景 >日常生活中,我们会遇到各种各样的文字处理任务,例如办公文档、广告文字信息、手写文字转换等等。面对多样的需求,人们需要一个简单快捷的产品,满足不同人群的需求。同时,随着我国老龄化逐渐加快,适老化产品逐渐被人们重视。 ### 2、产品市场 目前我了解发现到的相关市场产品能进行文字识别的有关api接口已经较为成熟,准确率也相对较高。但是,将文字识别与语音合成、翻译结合的app很少,且目前大多app操作页面并不贴合适老化,缺少全面的人文关怀。 ### 3、市场特征 #### - 文字识别功能在市场上前景广阔,运用场景丰富 - 具备人文关怀的相关产品较少,功能也较单一。面对我国老龄化程度的不断加快,兼具适老化特点的产品设计应该被重视。 ### 4、发展优势 #### - 目前将文字识别与语音合成、翻译功能结合的app较少,市场前景好。 - 简洁的界面布局以及操作过程,符合适老化产品的特点。 - 语音合成、翻译功能的加入为残障人士带来一定便利,丰富了产品体验,发展前景较好。 - API调用简单,产品开发成本较低。 ## 三、价值主张设计 #### 1、价值宣言 随着移动手机的普及,人们对网络信息的文字处理的需求具有多样性。考虑老年人以及残障人士使用需求,在设计上运用简单直接的交互流程,增加语音合成技术,最大程度上满足用户体验。通过图片识别,可得到文字信息,自由选择语音转换以及翻译功能。 **核心价值:文字识别加入语音合成、翻译功能,提供更加便利的服务,满足用户需求,增加人文关怀。** #### 2、加值宣言(最小可行性产品MVP) #### - 通过简单上传图片内容,用户快速识别提取文字信息,并对其进行操作处理。 ![输入图片说明](https://images.gitee.com/uploads/images/2021/0120/160808_f0fe1d8d_5329241.png "58441ee4811c21e7de26996dc0d2870.png") ## 四、用户分析 #### 1、目标用户 #### - a、经常处理纸质文件档案、报表工作的人员 - b、看不清文字的老年人以及特殊人群(如有眼部疾病者) - c、日常生活中需要提取文字信息的人(如纸质文字转换电子版、教师批改作业) #### 2、用户痛点 #### - 纸质文档资料太多了,想要方便快捷转换成电子版处理 - 图片文字太小/太模糊,获取信息困难 - 文字是英文的看不懂,想要快速识别后进行翻译 #### 3、解决方案 - 考虑用户多方面需求问题,利用百度开放平台接入API,插入文字识别、语音合成、关键字提取、百度翻译功能来实现产品价值,解决用户需求问题。 #### 4、需求列表 |优先级|需求|智能加值|API| |:-|:-:|-:|-:| |1|需要快速识别图片文字信息|是|通用文字识别| |2|看不清文字内容,需要识别并语音转换|是|语音转换| |3|想对文字进行识别提取关键词或进行翻译功能|是|百度翻译、自然语言处理-文章标签| #### 5、人工智能概率性考量 - 目前调用百度AI开放平台api接口准确率高,模型针对图片模糊、倾斜、翻转等情况进行专项优化,鲁棒性强,且支持2W+大字库,总体识别准确率高达99%;依托百度云技术实力,提供高可靠性、弹性可伸缩、高并发承载的文字识别云端服务,服务可用性高达99.99%。 #### 6、用户画像 ![输入图片说明](https://images.gitee.com/uploads/images/2021/0119/184658_21c36940_5329241.png "Web 1920 – 1.png") *用户旅程图* ![输入图片说明](https://images.gitee.com/uploads/images/2021/0120/164207_19ba9607_5329241.png "e74707c8a83ae99c3dbfec44a95f2a7.png") *利害相关者* ![输入图片说明](https://images.gitee.com/uploads/images/2021/0120/164259_4cce5a39_5329241.png "d65d57ce5f761efb696e7af123f991e.png") ## 五、产品功能介绍 #### 1、功能结构介绍(结构图) ![输入图片说明](https://images.gitee.com/uploads/images/2021/0120/165009_f9615c40_5329241.png "1aecb5d152d010b842adf34177f62d0.png") #### 2、数据流程设计 产品使用可行性IDEO三要素从商业可行性、技术可行性和用户可欲性分析可知,利用百度语音合成API、百度通用文字识别API、自然语言处理API和百度翻译API来打造我们的产品是可行的,可以智能地解决用户处理文字信息时的问题,通过数据交互实现文字处理需求。 **a、用户可欲性** #### - 页面操作简单易上手,界面简洁 - 功能选择较丰富为用户提供语音播报、外语翻译、关键字提取,满足多方面需求。 **b、技术可行性** #### - 百度AI开放平台可以满足为用户识别图片文字信息、语音合成等功能。 - 百度翻译开放平台提供了API接口实现翻译功能 **c、商业可行性** #### - 目前市场相关的app较少,且功能较单一,占市场率不高。开发功能丰富,满足用户需求的产品可有效打入市场。同时使用API减低成本,商业可行性较好。 #### 3、数据推理 |序号|页面| |:-|:-:| |问题1|我们在页面上呈现什么内容?| |回答1|用户上传图片识别出文字信息、复制文字提取关键词| |问题2|用户输入的结果内容从哪里来| |回答2|去开放平台调用api,获得结果内容| |问题3|请求从哪里来| |回答3|用户上传/输入文字信息| ## 六、产品原型介绍与交互设计 [点击查看交互原型](https://modao.cc/app/1c5b66f3d51575bff4ddb01655cae76a2dbc5fd4?simulator_type=device&sticky) 界面交互: 界面设计的风格以简洁风为主,交互过程清晰,给用户以良好体验感。 用户通过普通操作使用软件的识别图片文字、语音播报、翻译、提取关键字等功能,本产品使用百度云平台的“语音合成”“自然语言处理”“通用文字识别”“百度翻译”等智能API实现主要功能的智能交互,通过拍照识别文字返回信息,选择语音播报等功能,满足人们日常处理文字信息需求,同时一定程度上便利特殊人群,让用户拥有良好的产品体验,本产品界面简洁大方,操作简便,用户可以快速使用,满足用户需求。 ### 界面流程及关键智能交互 ![输入图片说明](https://images.gitee.com/uploads/images/2021/0120/174102_dadf4d2d_5329241.png "c0e18b6d6c2297d8054775fe5901ab8.png") - 界面流程 - 【主页】点击选择上传照片 - 【识别界面】可进一步选择功能 - 【翻译、语音播报页面】 -![输入图片说明](https://images.gitee.com/uploads/images/2021/0120/181152_4f4cd41d_5329241.png "1c7956e84d1343ca41a92e1db609771.png") - 【提取关键字页面】 - 【信息获取界面】 ![输入图片说明](https://images.gitee.com/uploads/images/2021/0120/181209_5ae99754_5329241.png "f9571df91566b6a58b55d0e4cd8a16a.png") ### 数据流程及关键智能API使用 - 主要功能的数据流向: - 1.图片文字识别:用户上传图片到后台数据库,然后传到百度云通用文字识别的数据库,返回对应的信息数据到后台,再返回到用户。 - 2.语音识别:文字内容数据传到百度云语音合成的语音数据库合成,再返回到后台,播放给用户 - 3.自然语言处理-文章标签:用户上传文字内容到后台数据库,然后传到百度云自然语言处理的数据库,返回对应的信息数据到后台,再返回到用户。 - 4.百度翻译:用户识别/输入的数据传到后台数据库,再传到百度翻译开放平台数据库,返回对应的信息数据到后台,再返回到用户 - 数据流程图 ![输入图片说明](https://images.gitee.com/uploads/images/2021/0120/185546_8ab5185e_5329241.png "ac60308b29bcb65e58a1cc975da8e64.png") ## 七、API产品使用关键AI - 1、该产品使用了以下API > [自然语言处理-文章标签](https://ai.baidu.com/tech/nlp_apply/doctagger) > [通用文字识别](https://ai.baidu.com/tech/ocr/general) > [语音合成](https://ai.baidu.com/tech/speech/tts_online) > [百度翻译开放平台](https://api.fanyi.baidu.com/product/11) - 2、使用比较分析 - 核心技术与应用场景的不同 百度AI的核心技术包括语音技术、图像技术、人脸识别、自然语言、数据智能、深度学习、AR增强现实、智能视频分析、知识图谱、机器翻译等。腾讯优图的核心技术包括人脸识别、图像识别与处理、文字识别、音频技术。Face++人工智能开放平台的核心技术包括人脸识别、人体识别、证件识别、图像识别。 相比其他两个平台,百度AI的技术更加丰富,应用场景更多,特别是自然语言处理、数据智能、AR、机器翻译这些方面都是其他两个没有涉及的。而腾讯优图则多了音频技术,主要用于自家产品,像QQ音乐的听歌实曲、全民K歌的声伴分离、企鹅FM的语音合成,优图依靠腾讯的产品基因不断将其人工智能技术应用于大众的生活中。 - 主要API功能价格对比 - 百度ai ![输入图片说明](https://images.gitee.com/uploads/images/2021/0120/215658_3e8a7494_5329241.png "17acd8b23afcaa9ae12bec4c32dab86.png") - 腾讯云 ![输入图片说明](https://images.gitee.com/uploads/images/2021/0120/215719_f7f6c355_5329241.png "f3066d36d8f70a54bf8f14aef19a81a.png") |通用文字识别|百度AI|腾讯云|阿里云| |:- |:-: |-: |-: | |成熟度|★★★★★|★★★★★|★★★★★| |性价比|★★★★★|★★★★|★★★★| ## 八、智能API应用(代码) **完整代码链接:** [代码内容](https://www.jianshu.com/p/d2fc896dff37) - 语音合成 - ![输入图片说明](https://images.gitee.com/uploads/images/2021/0120/204618_72c73ccf_5329241.png "语音合成.png") - 通用文字识别 - ![输入图片说明](https://images.gitee.com/uploads/images/2021/0120/204646_6ac44076_5329241.png "文字识别 (1).png") - 文章标签 - ![输入图片说明](https://images.gitee.com/uploads/images/2021/0120/204723_bb519740_5329241.png "文章标签.png") - 百度翻译 - ![输入图片说明](https://images.gitee.com/uploads/images/2021/0120/204754_7e1eca1a_5329241.png "翻译.png") ## 九、心得及总结 #### 1、一个产品需要以人为本,考虑不同人群对产品的需求,降低产品的使用难度,方便用户操作,提高产品的实用性。 2、好的产品除了外形美观,在成本上也需要有一定控制。通过调用API可以降低产品成本,也让我对产品开发有进一步认识。 3、通过许老师的这门课程,以及最后的文档写作帮助我重新全面的理解“API、机器学习与人工智能”课程的价值。再次感谢百度AI开放平台以及百度翻译开放平台提供的api技术支持,网新朋友们的互帮互助以及老师们的用心教导。 4、感谢processon给我平台免费制作流程图、墨刀平台提供限时免费制作原型图 ### 使用的资源 - [最小可行产品 MVP](https://blog.csdn.net/wushxian/article/details/42028761) - [【AccessToken】110错误码解决方法](https://ai.baidu.com/forum/topic/show/496525) - [调取文章标签参考](https://www.cnblogs.com/zlc364624/p/12482427.html) - [调取文字识别参考链接](https://blog.csdn.net/XnCSD/article/details/80786793?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.control) - [感谢师姐提供文档的参考书写](https://gitee.com/JWFung/end_of_api) - [不同平台开放能力对比](https://blog.csdn.net/daliying_/article/details/79527206) - [人人都是产品经理产品需求文档参考](http://www.woshipm.com/pd/4143186.html) - [什么是产品设计](http://www.woshipm.com/it/4315987.html) - [产品经理须知 | API接口知识小结](http://www.woshipm.com/pmd/3279871.html) - [如何绕开API的坑](http://www.woshipm.com/pmd/690292.html)