# API **Repository Path**: attempt/API ## Basic Information - **Project Name**: API - **Description**: 专业核心课《20春_API_ML_AI》期末项目 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-07-16 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # API期末项目 - [版本1.0对比2.0更新——README_1.0.md 展开就可以看到完整对比](https://gitee.com/attempt/API/compare/75fcd0386e7be7d3b065c18f6e53db18489eb64c...791a449a982a3efcbf9de3193b06c78af68a5523) - 迭代2.0主要修改的部分: 1. 更换数据流程图 2. 产品原型增加“注册页面、我的页面”,修改“登陆页面” 3. 对“核心页面”中两个主要功能的页面流程图进行了修改更换 4. 实时语音API增添百度平台代码使用 5. 手写文字识别API增添微软的识别手写体代码使用测试及两平台代码API对比 6. 增添“十四、该产品未来的发展路线构想”中的发展理念,产品更新迭代过程,产品的盈利模式和业务模式。 7. 修改“心得总结” 8. 增加”感谢”部分的链接。 |文档名称|速速笔记—产品需求文档 |--|--| |产品名称|速速笔记| |产品描述|一款利用语音技术和文字识别技术让职员在会议中能够快速记录,为会议后完善记录、撰写报告节约时间和精力的APP| |产品版本|[2.0——可点击查看对比代码](https://gitee.com/attempt/API/compare/75fcd0386e7be7d3b065c18f6e53db18489eb64c...791a449a982a3efcbf9de3193b06c78af68a5523)| |文件现状|进行中| |文件作者|金琳| ## 加值宣言 虽然目前市面上有大量语音转文本类的APP,但大多**收费高,功能少,针对性弱,使用者不多**;可是在各类的会议场景依旧有很大的需求量,而且在会议中对于关键内容的捕捉,很多时候**写字优于打字**,所以尤其是对于那些长期习惯手写记录的职员来说,最后**整理记录撰写报告**才是重点,这是很多产品都欠缺的重点。 而我的速速笔记APP不仅针对性利用语音转文本api技术帮助职员对于关键性的长段发言利用实时语音识别快速记录;错过和不全程呆在会议的职员或重大会议发言记录怕有疏漏的职员可利用保存下的音频,利用音频转文本api快速便捷的回顾会议内容,对会议笔记进行补充修改和完善;会议结束后,习惯手写会议记录的职员还可利用手写文字识别api快速将其转化为电子文本,大大缩短撰写会议记录报告的时间。 ## 一、需求概述 ### 1. 产品背景 随着中国近几年的快速发展,科技逐渐在我们生活中暂露头角,科技改变生活也不再只是一句单纯的口号,其中最渴望享受科技带来便捷的便是大量被工作重担压制的职员们,工作会议、工作报告已是常态,尤其在各类大会时,领导们讲话风格鲜明,自带方言,内容冗长,令人头疼不已;偶尔还会因为各种原因缺席会议,会议结束后还需要耗费时间打字将会议笔记转化为电子文本来撰写会议报告。这款产品的出现将是主要**辅助职员在会议中快速捕捉关键内容,解决会议不在场和领导方言的困扰,节约时间,进行会议记录的查缺补漏,快速撰写工作报告。** ### 2. 产品市场 市面上语音转文本类的软件不少,但大多知名度不高,成熟的APP只有一两家,并且收费昂贵,音频长度也有限制,要么功能过于杂乱,要么功能不全面,时常面临要下几个APP才能完成做的事情。但是将实时识别和大量长音频转文本,并结合手写笔记记录转电子文本的整合**几乎没有看见过**,而且这几种技术的出现和**综合使用**是目前对于职员来说**十分需要,用处极大,并且实在方便**的精准产物。 ### 3. 市场概述 ##### 3.1国内语音转文本类APP市场概述 >根据讯飞听见官方资料,服务客户超过 207 万,这个只是录音文件转文字的用户数量,我们保守估计下,除去夸张部分及不活跃用户应该有还剩 50 万活跃用户,在加上在线语音转文字用户语音转文字市场,应该有 80 万用户群体(其中包含部分中国 22.8 万记者和文字工作者、学生党)。 ————来自2018-12-13,知乎文章《语音转文字软件的坑》 讯飞听力作为语音转文本类APP的产业大头,以其用户量来观察语音转文本类app的市场再合适不过了,再来看今年讯飞听见公布的官方资料,服务客户超过 1305 万,相比起四年前,也差不多增加了6倍左右的数量,但是根据讯飞听见的用户群体来看,其中包含大量的记者,文字工作者和学生,职场人士还比较少。目前来看,**语音转文本类的应用开始不断被知晓,并且市场在不断被扩大**,与此同时各种语音转文本的app都开始出现,但是**质量层次不齐,识别精确度还需考量**;随着人工智能推进,各大输入法和社交软件也来凑热闹,但只能转写自身产品的录音,且准确率还有待提高,最终**用户大量被分散,市场需求依旧存在,但总是找不到对应便宜且方便实用的APP**。 ##### 3.3. 发展优势 - 针对性强,挖掘之前关注度不高,需求量大的职场潜在用户,市场空间充足; - 精准对接职场人士需求,充分考虑到长期以来手写记录人士的转化需求,更全面的为职场人士服务; - 通过人工智能的结合,有效为职场人士减轻负担,提高工作效率,挣脱传统复杂的漫长工作模式,成为不可或缺的辅助工具; ## 二、核心价值(最小可行性产品) 着眼于职场中困于会议和报告的职员,利用实时语音识别和手写文字识别帮助其快速获取会议重点,缩短报告撰写时间。 ##### 用户痛点 1. 领导讲话太快,无法做笔记; 2. 会议开到一半临时有事出去,用录音笔记录下来,会议结束后还要花时间听录音,完善笔记,太费时间; 3. 还保留着手写会议笔记的习惯,但是最后汇总写报告,还要重复把写过的笔记再打一遍; ## 三、用户分析 1. 目标用户群: - 核心用户:22~45岁的的基层及中层职场职员群体 - 主要用户:25~40岁之间的频繁参与会议的中层职员 2. 用户画像及使用场景 ![阿芳](https://gitee.com/attempt/API/raw/master/image/%E4%BA%BA%E7%89%A9%E7%94%BB%E5%83%8F%E9%98%BF%E8%8A%B3.png) 使用场景:阿芳是公司的老职员了,虽然没有升为领导,但做事很稳妥,办事效率高,报告也写得好;因此每次会议,上头的领导都会叫她前去进行会议记录,再加上平常公司每周每月大大小小的会议报告,光是这会议的笔记记录和报告撰写都是让她焦头烂额,十分辛苦。后来通过同事介绍,她下载速速笔记APP,将领导讲话很快的内容用“实时语音识别”功能快速识别记录下来,然后自己手写的笔记通过“手写文字转化”功能,快速转为电子文本,报告的编辑和撰写效率大大提高,让她轻松了不少。 ![小海](https://gitee.com/attempt/API/raw/master/image/%E4%BA%BA%E7%89%A9%E7%94%BB%E5%83%8F%E5%B0%8F%E6%B5%B7.png) 使用场景:小海是最近公司新入职的员工,新人嘛,总是要做的事情很多,碰到开会的时候偶尔还会被领导使唤去拿东西,调整设备,导致会议内容听的不全面,回头还要交会议报告,内容听挺不全,报告要怎么写?还要麻烦同事花费时间将他没听到的内容复述一遍?后来他发现了速速笔记APP,在会议开会时打开录音笔将会议内容记录下来,即使他中途办事不在现场,也能够在结束后利用“音频转文本”功能,将会议内容转出来,对会议记录查缺补漏。 ## 四、核心价值与用户痛点 |用户痛点|API加值| |:--:|:--:| |领导讲太快内容不好记录|微软的语音转文本API| |会议不全程在场,人工听录音费时费劲|百度AI的音频文件转写API| |手写笔记还要二次重复打字|百度AI的手写文字识别API ## 五、人工智能概率性与用户痛点 > 据统计,我国人工智能创业项目中处于语音识别和语义分析赛道的共有252家,占比10.6%。同时,根据国家工业信息安全发展研究中心数据,截至2018年底,我国人工智能领域合计申请专利44.4万件,而语音识别与自然语言处理技术则合计申请专利6.1万件,占比达到13.6%,反映出智能语音领域单位技术产出情况高于行业整体,且发展也更倚重技术要素。 ——艾瑞2020年中国智能语音行业研究报告 微软开放平台的语音转文本技术与百度AI开放平台的手写文字识别技术,有以下优势: |微软语音转文本技术优势/用户痛点|百度AI手写文字识别技术优势/用户痛点| |:--:|:--:| |1. 准确便捷:使用最先进的语音识别获取准确的听录。使用说话人分割聚类来确定说话者、说话内容和说话时间。——准确获取领导讲话内容|1. 海量数据库:依托百度优秀的图像处理技术和海量优质数据——用户使用起来更放心| |2. 个性化:将特定单词添加到基本词汇或生成自己的模型,以了解组织和行业特定的术语。——解决职业术语识别的困难|2. 准确性高:支持识别各种不规则手写字体,并对字迹潦草、模糊等情况进行专项优化,手写中文识别准确率可达90%以上——字迹潦草也能识别| |3. 支持多种语言:快速准确地将音频听录为 30 多种语言的文本。—国外职员不会因语言无法使用|3. 服务稳定:依托百度云技术实力,提供高可靠性、弹性可伸缩、高并发承载的文字识别服务,服务可用性高达99.99%——用户不用担心技术的失效| 所以,该产品利用语音转文本技术解决实时语音识别和短音频识别,尤其是其个性化的设定让职业术语识别更为轻松,也让整个识别过程更加方便,多种语言听录也让APP有更大的发展空间;另外手写文字识别技术即使字迹潦草,错误率也不会太高;不管是哪种识别,对于用户来说,准确率是无比重要的,但后期如何提高准确率,对识别出的文本自动纠正改错是需要好好考虑的。 **识别不准确的方法:机器自身的深度学习,建立数据库** ## 六、需求列表(对应人工智能加值) |序号|api技术|用户场景|优先级| |--|--|--|--| |1|微软的语音转文本API|快速记录领导讲话内容|A(重要)| |2|百度AI的手写文字识别API|将笔记转换为电子文本进行修改撰写|A(重要)| |3|百度AI的音频文件转写API|会议后复查会议内容对笔记查缺补漏|B(次重要)| ## 七、产品结构图 1. 产品功能结构图 ![速速笔记产品功能结构图](http://assets.processon.com/chart_image/5f0fed247d9c081beab9ba8b.png) 2. 用户流程图 ![速速笔记用户流程图](http://assets.processon.com/chart_image/5f100459e401fd06f3dccf15.png) 3. 产品结构图 ![速速笔记产品结构图](http://assets.processon.com/chart_image/5f10085a07912906d9a71375.png) ## 八、数据推理 ||页面| |--|--| |问题1|我们在页面上呈现什么内容| |回答1|实时语音识别结果、音频转文本识别结果、手写文字识别结果| |问题2|向用户输出的结果内容从哪里来| |回答2|去开放平台调用api,获得结果内容| |问题3|请求从哪里来| |回答3|用户对照片的上传,语音的输入,自定义职业术语| |问题4|如果页面出现识别错误,应该如何获取并处理数据,正确数据的信息从哪里来| |回答4|通过用户的反馈进行信息获取,通过用户的自愿反馈扩大数据库,强化机器学习,不断扩大数据库提高识别准确率| - 数据流程图展示 ![数据流程图](http://assets.processon.com/chart_image/5f17a5775653bb7fd248517b.png) ## 九、产品原型及交互设计 (产品原型由墨刀制作) ##### 可点击此处查看——[原型文档交互展示](https://modao.cc/app/6285694cd32a55760602cd03dfc8311faad04e83?simulator_type=device&sticky) 1. 启动及登录界面、注册页面、我的页面 ![启动界面](https://gitee.com/attempt/API/raw/master/image/%E5%90%AF%E5%8A%A8%E9%A1%B5%E9%9D%A2.png) ![登陆界面](https://gitee.com/attempt/API/raw/master/image/%E7%99%BB%E5%BD%95%E9%A1%B5%E9%9D%A2.png) ![注册页面](https://gitee.com/attempt/API/raw/master/image/%E6%B3%A8%E5%86%8C.png) ![我的页面](https://gitee.com/attempt/API/raw/master/image/%E6%88%91.png) 2. 核心页面——实时语音识别功能、手写拍照识别功能 ![实时语音识别](https://gitee.com/attempt/API/raw/master/image/%E5%AE%9E%E6%97%B6%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB.png) ![手写拍照识别功能](https://gitee.com/attempt/API/raw/master/image/%E6%89%8B%E5%86%99%E6%8B%8D%E7%85%A7%E8%AF%86%E5%88%AB%E9%A1%B5%E9%9D%A2.png) 用户通过实时语音识别界面,可利用录音按钮实施边录音便转文本,快速且实时的获取目标内容,并且可以直接在识别出来的文本上进行修改;再通过实时语音识别界面,利用直接拍照和照片上传两种模式,识别出来的文本可在线修改然后复制或者分享。(利用微软的语音转文本API、百度AI的手写文字识别API,解决“领导讲太快内容不好记录”和“手写笔记还要二次重复打字”的痛点) 3. 主要页面——音频文件转写功能 ![音频文件转写](https://gitee.com/attempt/API/raw/master/image/%E9%9F%B3%E9%A2%91%E8%BD%AC%E6%96%87%E6%9C%AC.png) 当用户进入音频文件转写页面后,可选择之前保存好的长时间会议录音,在线观看文本,截取需要的内容直接复制添加到报告中。(利用百度AI的音频文件转写API,解决“会议不全程在场,人工听录音费时费劲”的痛点) ### 十、API的运用 ##### (一)实时语音识别 微软开放平台语音转文本——实时语音识别 **(1)首先需要通过API Key和Secret Key获取access_token,获得输出代码** ![输入与输出的源代码链接](https://gitee.com/attempt/API/raw/master/%E4%BB%A3%E7%A0%81/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB%E4%BB%A3%E7%A0%81.png) **(2 )接着对边录音边输出的结果** ![输入与输出的源代码链接](https://gitee.com/attempt/API/raw/master/%E4%BB%A3%E7%A0%81/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB%E7%BB%93%E6%9E%9C.png) -[相关源代码链接](https://gitee.com/attempt/API/blob/master/%E4%BB%A3%E7%A0%81/yuyin.py) - 案例: - 录音:边录音边转文本 ![单张图片](https://gitee.com/attempt/API/raw/master/image/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB.png) 2. [百度AI平台实时语音API](https://ai.baidu.com/ai-doc/SPEECH/qk76b444d) - 相关代码显示: ``` import time import speech_recognition as sr import logging logging.basicConfig(level=logging.DEBUG) from aip import AipSpeech # filename = './audio/test.wav' BAIDU_APP_ID = 'xxx' BAIDU_API_KEY = 'xxx' BAIDU_SECRET_KEY = 'xxxx' aip_speech = AipSpeech(BAIDU_APP_ID, BAIDU_API_KEY, BAIDU_SECRET_KEY) r = sr.Recognizer() # 麦克风 mic = sr.Microphone(sample_rate=16000) while True: logging.info('录音中...') with mic as source: r.adjust_for_ambient_noise(source) audio = r.listen(source) logging.info('录音结束,识别中...') start_time = time.time() print(type(audio)) audio_data = audio.get_wav_data() print(type(audio_data)) # 识别本地文件 ret = aip_speech.asr(audio_data, 'wav', 16000, {'dev_pid': 1536, }) print(ret) if ret and ret['err_no'] == 0: result = ret['result'][0] print(result) end_time = time.time() print(end_time - start_time) else: print(ret['err_msg']) logging.info('end') ``` ###### **微软与百度API的对比** 1. **[微软实时语音识别API](https://azure.microsoft.com/zh-cn/services/cognitive-services/speech-to-text/)**:调用其API进行测试时发现,所需要的代码不多,并且可以根据需要调整不同的语言进行语音转文本的测试,使用非常方便。在这还可以通过简单的代码修改进行自定义模型的设置,使得可用性大大增加。 2. **[百度实时语音识别API](https://ai.baidu.com/tech/speech/realtime_asr)**:和微软相比,可以识别的语言就少了很多,局限在了普通话、四川话、粤语、英语上,再者微软的语音转文本也可以智能根据语音的内容理解和停顿智能匹配合适的标点符号,。!? ;在调用过程中,代码使用较长,使用比较辛苦。 - **总结分析**:微软的自定义模型适合本产品,而且是最为契合的一点;再加之多种语言轻松转换听录,让技术的实现更为容易和舒适。所以我选择了微软实时语音识别API为本产品调用。 ##### (二)手写文字识别 百度AI开放平台 -[相关源代码链接](https://gitee.com/attempt/API/blob/master/%E4%BB%A3%E7%A0%81/%E6%89%8B%E5%86%99%E8%AF%86%E5%88%AB.ipynb) ![输入与输出的源代码链接](https://gitee.com/attempt/API/raw/master/%E4%BB%A3%E7%A0%81/%E6%89%8B%E5%86%99%E6%96%87%E5%AD%97%E8%AF%86%E5%88%AB%E4%BB%A3%E7%A0%81%20%E7%BB%93%E6%9E%9C.png) - 案例1: - 图片上传:多行手写文字笔记,按行识别 ![单张图片](https://gitee.com/attempt/API/raw/master/image/%E6%89%8B%E5%86%99%E6%96%87%E5%AD%97%E8%AF%86%E5%88%AB%E7%A4%BA%E4%BE%8B.png) 2. [微软服务-识别手写体](https://azure.microsoft.com/zh-cn/services/cognitive-services/ink-recognizer/) - 相关运行代码 ``` /** * get Handwritten request url * @returns {String} Full request URL */ function getHandwrittenRequestURL() { return url.format({ protocol: 'https', host: 'westus.api.cognitive.microsoft.com', pathname: 'vision/v2.0/recognizeText', query: { mode: 'Handwritten' } }); } function getHandwrittenRequestOptions(imageUrl) { return { method: 'POST', headers: { 'Ocp-Apim-Subscription-Key': config.microsoft.ocpApimSubscriptionKey, 'Content-Type': 'application/json' }, body: { url: imageUrl }, uri: getHandwrittenRequestURL(), json: true }; } function getHandwrittenResults(operationLocation) { return { method: 'GET', headers: { 'Ocp-Apim-Subscription-Key': config.microsoft.ocpApimSubscriptionKey, 'Content-Type': 'application/json' }, uri: operationLocation, json: true }; } /** * get Handwritten from image * @param {String} imageUrl Analyze image url * @param {function(err,{result})} cb Callback */ function getHandwrittenFromImage(imageUrl, cb) { if (config.work === 'local') { return cb(null, {}); } const requestOptions = getHandwrittenRequestOptions(imageUrl); request(requestOptions, (error, response, result) => { if (error) { let responseError = error.response ? error.response.body || error.response : error; config.error('getImageInfo error::', responseError, requestOptions); cb(responseError); } else { try { setTimeout(function () { const operationLocation = response.caseless.dict['operation-location']; const getHandwrittenRequestOptions = getHandwrittenResults(operationLocation); request(getHandwrittenRequestOptions, (error, response, result) => { if (error) { let responseError = error.response ? error.response.body || error.response : error; config.error('getImageInfo error::', responseError, requestOptions); cb(responseError); } else { cb(null, result); } }); }, 10000); } catch (e) { config.error('err when parse analyze result', e); cb(e); } } }); } ``` - 测试图片:![测试图片](https://images.gitee.com/uploads/images/2020/0722/155833_eb43e981_2229195.png) - 结果显示 ``` { status: 'Succeeded', recognitionResult: { lines: [ { boundingBox: [Array], text: 'We are all in the gutter', words: [Array] }, { boundingBox: [Array], text: 'but some of us are looking at the stars', words: [Array] } ] } } ``` ###### **微软与百度API的对比** 1. **[微软服务-识别手写体](https://azure.microsoft.com/zh-cn/services/cognitive-services/ink-recognizer/)**:调用其API进行测试时发现,微软的代码调用只能利用C#、Java、Javascript进行调用,使用有限制,并且代码太长,识别过程中目前只能识别英文的手写图片。 2. **[百度AI开放平台](https://ai.baidu.com/tech/ocr_others/handwriting)**:和微软相比,调用API代码比较短并且方便快速,从识别结果来看,识别准确率较高,针对不同语言都可以识别。 - **总结分析**:百度的手写识别API相比微软来看,代码调用短小便捷,适用多种手写文本语言识别,有多种调用方式,综上所述,我选择百度AI平台中手写识别API作为我的APP手写识别功能调用的API。 ##### (三)音频文件转写 百度AI开放平台 -[相关源代码链接](https://gitee.com/attempt/API/blob/master/%E4%BB%A3%E7%A0%81/%E9%9F%B3%E9%A2%91%E6%96%87%E4%BB%B6.ipynb) - 代码运行结果: ![输入与输出源代码链接](https://gitee.com/attempt/API/raw/master/%E4%BB%A3%E7%A0%81/%E9%9F%B3%E9%A2%91%E6%96%87%E4%BB%B6%E8%BD%AC%E5%86%99%E7%BB%93%E6%9E%9C.png) ### 十一、API的使用价格 - [微软的语音转文本API价格](https://azure.microsoft.com/zh-cn/pricing/details/cognitive-services/speech-services/): 价格如下: ![微软的语音转文本API](https://gitee.com/attempt/API/raw/master/image/%E8%AF%AD%E9%9F%B3%E8%BD%AC%E6%96%87%E6%9C%AC1.png) ![微软的语音转文本API](https://gitee.com/attempt/API/raw/master/image/%E8%AF%AD%E9%9F%B3%E8%BD%AC%E6%96%87%E6%9C%AC2.png) - [百度AI的手写文字识别API价格](https://ai.baidu.com/ai-doc/OCR/Ek3h7xvq7#%E6%89%8B%E5%86%99%E6%96%87%E5%AD%97%E8%AF%86%E5%88%AB): 每日50次免费调用量,免费额度用尽后按照如下价格进行计费。 ![百度AI的手写文字识别API](https://gitee.com/attempt/API/raw/master/image/%E6%89%8B%E5%86%99%E6%96%87%E5%AD%97%E8%AF%86%E5%88%AB.png) - 百度AI的音频文件转写API价格 ![百度AI的音频文件转写API](https://gitee.com/attempt/API/raw/master/image/%E9%9F%B3%E9%A2%91%E6%96%87%E4%BB%B6%E8%BD%AC%E5%86%99.png) ### 十二、API使用风险评估 > 另一方面,语音转写已经成为智能语音技术落地的重要场景,目前在短时间、对话人数少的场景下应用效果较好,但在企业级和公共级场景下往往面临对话时间很长的情况,仅做语音转文字和简单的结构化,不能甄别有效信息、语义结构分类不理想等将是限制语音转写规模化落地的最大问题,行业的高速发展有赖于准确地按照需求提取长时语音消息的有效内容。 ——艾瑞2020年中国智能语音行业研究报告 - 相关风险和处理办法: 1. 因为可以通过同步账号,来保存用户在APP上保留的各种识别后经过修改编辑的文本,但同时也涉及到用户识别内容和账户信息的隐私问题,可以在建立数据库的时候加入区块链技术也可以通过加密用户数据,使用的时候需要得到用户的授权。 2. 各职业之前的使用术语各不相同,且数量庞大,想要甄别有效信息,光靠语音转文本的自定义模型可能不能完全满足需要。 3. 当语音识别错误的时候,可以推荐用户手动输入关键词,帮助机器学习进行自我更正,并输出给用户最正确的答案。 ### 十三、竞品分析 1. 竞品对象——息息语记APP 2.竞品的战略定位分析:息息语记主打“在线语记、拍图识字、离线录音、导入音频”四个核心功能,其中支持2个小时以上长时间的录音识别和各种格式音频文件撰写,还能一键分享识别文字到其他平台和导出识别的文字,外带照片识别并且完全免费。 3.竞品的产品结构:![息息语记](https://gitee.com/attempt/API/raw/master/image/%E6%81%AF%E6%81%AF%E8%AF%AD%E8%AE%B0.png) 4.竞品的差异化分析 4.1 区别 息息语记:在线录音没有时常限制,应用场景更多、音频文件记录更方便。支持较远距离(0.5m外)的录音场景下识别,适用于会议的使用。 4.2 缺点 当前仅支持普通话、四川话、粤语、英语的录音转文字识别;音频文件转写有限制,只能同时最多转写3个,转写市场为1-10分钟;无法同步账户,虽然在软件介绍中有图片识别功能,在APP中却并未看见。 **结论:相比息息语记,我们的速速笔记还可以自定义添加特色职业术语,使语音转写更加快速便捷;专门开辟了手写文字识别的功能,解决手写人群的困扰,并且内容可以同步账户进行保存。将来可以根据息息语记的优点,在我们速速笔记的基础上不断完善。** --- ### 十四、该产品未来的发展路线构想 发展理念:由基础功能延伸到附属功能,首先满足基本的语音识别、音频转文本和手写文字识别的功能,紧紧抓住职场会议和撰写会议报告的场景,以完成准确快速的语音及手写文字识别,优化完成识别后文本的使用和用户交互为目标,最终实现完整的职场精用语音转文本类APP产品。 ##### (一)产品的更新迭代过程 - **V1.0** 1. 实现实时语音识别功能,满足基本的录音识别需求; 2. 实现手写文本文本功能,满足用户手写文本转化的需要; 3. 实现音频转文本功能,满足用户对长录音的大量识别需求。 - **V2.0** 1. 针对用户的反馈对于识别准确率利用数据库进行纠正和修改。 2. 完善识别出来文本的分享功能,是以图片分享到社交软件上以及可以直接分享导出为word文件并添加特色文件编辑。 - **V3.0** 1. 添加会员收费制度,但是在用户注册账号使用了一定次数后激活。 2. 先是小规模和某一公司、企业合作,测试职场用户对产品的反馈,对需求和智能纠错优化。 3. 寻找种子用户并维护。 4. 完成基础的数据统计后台和用户营销管理后台 - **V4.0** 1. 开启自定义词汇功能,收集各种职场专用术语。 2. 正式开始市面推广,主要推广渠道为企业社交软件,各大公司企业的合作交流平台,相关智能发展媒体等; 3. 逐渐实现目标市场的闭环,提高口碑与粘性。 ##### (三)产品的盈利模式 智能识别功能收费;会员制度收费;可在分享文本后通过分享图片形成的二维码吸引用户点击的流量获利;后期通过出售特色文件模板、开办特色活动等获利 ##### (四)产品的业务模式 前期需要录入一些录音和手写文字图片识别的信息,在获得一定用户数量之后,可以利用用户分享生产更多内容,吸引更多的同领域用户,提高知名度;后期与公司或企业协作,使APP成为不可或缺的办公软件,既提高员工效率,APP也可以从中收益,成为双赢的稳定局面。 #### IDEO三要素(Viability 商业可行性、 Feasibility 技术可行性、及 Desirability 用户可欲性) ![IDEO三要素](https://gitee.com/attempt/API/raw/master/image/IDEO.png) ### 所使用的AI功能链接 - [微软-语音转文本API](https://azure.microsoft.com/zh-cn/services/cognitive-services/speech-to-text/) - [百度AI的手写文字识别API](https://ai.baidu.com/tech/ocr_others/handwriting) - [百度AI的音频文件转写API](https://ai.baidu.com/tech/speech/aasr) --- ##### 一句话版本 开会多,时间长,领导讲话快,偶遇到有其他工作与会议冲突无法到场,会议记录困难,疲于奔波于会议报告,我的APP帮助你会议上快速捕捉会议内容,只要有录音,即使不在场也可以整理会议重点,手写文字识别让你免去重复打字的时间,让陷于会议和报告的职员一身轻松。 ##### 1分钟版本 (图文线上可阅读含可查连结) 如今市面上有大量语音转文本类App的存在, ![语音转文本类App](https://gitee.com/attempt/API/raw/master/image/%E8%AF%AD%E9%9F%B3%E8%BD%AC%E6%96%87%E6%9C%ACAPP.jpg) ![语音转文本类App1](https://gitee.com/attempt/API/raw/master/image/%E8%AF%AD%E9%9F%B3%E8%BD%AC%E6%96%87%E6%9C%ACAPP1.jpg) 但大多**收费高,功能少,针对性弱,使用者不多**;可是在各类的会议场景依旧有很大的需求量,而且在会议中对于关键内容的捕捉,很多时候**写字优于打字**,所以尤其是对于那些长期习惯手写记录的职员来说,最后**整理记录撰写报告**才是重点,这是很多产品都欠缺的重点。其中比较出彩的是科大讯飞的“讯飞听见”以及目前最新上线的“息息语记”,目前还在完善和更新中,但是“息息语记”是比较贴近我的APP,但与众不同的是,我在语音转文本中加入了手写文字识别的功能,巧妙地将其结合在一起,还定制了自定义词汇模型,让识别更精准,不同职业一样能够轻松使用。另外,通过对人工智能概率性的分析以及对API使用风险的评估,认为该产品是有发展前景的。 --- ### 十五、心得总结及感谢 ##### 心得总结   如果说最初的医学临床辅助APP是一个粗陋无比的小想法,那么后来经过廖汉腾老师对于我们想法的批判让我明白仅仅有想法是不够的,要将想法化为现实,抓住想法中的一个细节让想法落地,才是最好的想法。之后的灵感多亏了和母亲交流时偶然提到的职场困扰,因此才让我迅速萌发出了产品构想。并且在完善整个PRD文档的过程,首先感谢提供API的微软平台和百度平台,接下来十分感谢在简书上,知乎上的各种文章和提问还有艾瑞数据所提供的报告,这一些资料让我对完成产品有了一个更深入的理解和看法。然后对提供了PRD文档模板的学姐和同学表示深深的感谢,因为你们的模板,为我完成PRD文档指明了一个更为明确的目标和方向,谢谢你们,最后在下方对所有提供给我帮助的页面都提供了链接,如果需要的话也可以点击查看。 ##### 感谢 - [几款语音转文字app,你了解多少?](https://www.jianshu.com/p/2c412e4bb27e) - [语音转文字软件的坑](https://zhuanlan.zhihu.com/p/52334690) - [录音转文字、语音转文字神器!比讯飞还好用!](https://zhuanlan.zhihu.com/p/140455936) - [知乎提问](https://www.zhihu.com/question/20602546) - [知乎提问:有没有语音转文字的APP?](https://www.zhihu.com/question/26961618) - [PRD原型文档参考](https://github.com/easonqxf/nfu.api) - [PRD原型文档参考](https://github.com/NFUNM032/app-of-savor) - [2020年中国智能语音行业研究报告](https://www.iresearch.com.cn/Detail/report?id=3526&isfree=0) - [CSDN博主「seaalan」的微软服务 - 识别手写体](https://blog.csdn.net/seaalan/article/details/89706154) - [CSDN博主「开开136」python百度语音实时识别成文字](https://blog.csdn.net/kaikai136412162/article/details/90813588)