# api期末项目 **Repository Path**: li_man_qi/api-final-project ## Basic Information - **Project Name**: api期末项目 - **Description**: 用来提交大二第一学期期末作业 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2021-01-19 - **Last Updated**: 2025-01-02 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 小巧记app |产品名称| 小巧记 | | ---- | ---- | |产品描述| 一款录音正确转化文字app,能有效帮助你轻松做课堂记录和学习笔记 | | 产品版本 | 2.0 | | 文件现状 | 进行中 | | 文件作者 | 李漫琪 | ## 价值主张宣言(MVP) >MVP 1. 标题融合问题提出解决(2%) - 标题:**解决多笔记会议记录困难问题**,音频文件转写+文本纠错**让你的记录又快又对** >MVP 2. 简介含问题及解决方案,融合概率性考量(4%) - 简介:小巧记是一款当你需要面对一个时间过长的会议或者课程,你疲惫、来不及记录但又不想错过其中任何一个重要点时;又或者你有重要的事情需要去做,但两边兼顾不暇的时候可以使用的一款语音自动转化并纠正错别字的app。 - 通过**音频文件转写api**和**文本纠错api**实现将长语音转变为文本,再将文本进行纠错,尽可能实现零误差转换,让使用者更高效的阅读。 - - 产品设计IDEO三要素分析图:
|用户可欲性|手动做会议笔记或者课堂笔记有时候往往来不及或者有缺漏,当下是一个快节奏的社会,有时课程往往一节接一节,会议转场频繁等等因素导致笔记不能及时做,过后又容易遗忘点什么,这时便可用到该产品。 |----|----| |技术可行性|当前语音技术和自然语言处理等的发展已日益完善,准确性在不断的提高。当前该API的使用已能够满足日常使用的需求,并以不断更新的技术性在更好地满足用户的需求。| |商业可行性|该产品的商业可用性在于产品的易用性和便捷性,具有市场前景。产品未来的发展方向是与文章、论文、小说等平台和翻译软件合作,实现产品的商业性发展| ## 一、产品及用户研究与需求列表 #### 产品市场现状: * **产品背景:** 细节决定成败,重要的会议记录和课堂笔记往往内容非常多,想要毫无遗漏的将它全部记下来存在着一定的难度。学生的课程繁重,上课笔记没记完整下课还没来得及补充完整,就需要去上下一节课,等有时间补充的时候,往往有所缺漏。 * **产品市场:** 经过初步的市场分析,很多人反馈单单使用录音,过后很少有人会去从头听一遍,因为太过于浪费时间。但当前市场上的语音转文字软件大多都仅支持短语音转化,且存在着很多错别字和谐音字,有着一定的缺陷。所以小巧记app的存在有着一定的社会价值。 * **发展优势:** 针对于当前市场上长语音转化加文本纠错功能一起实现的app类型并不常见,产品的目标市场就是实现功能的完善,满足用户更加高的需求。 ### 1.了解问题 #### (1)从用户使用情境分析:用户痛点及可使用的api > 问题需求 1. 使用情境说明具体(2%) | 使用情境 及 痛点分析 | api | | ---- | ---- | | 长录音边听边转文字太过于浪费时间 | 音频文件转写api | | 录音形成大量的文字中同音字容易会错意 | 文本纠错api | | 想高效率且无漏洞的完成笔记的整理和会议记录的完善 | 音频文件转写api+文本纠错api | #### (2)从用户画像了解目标用户群 > 问题需求2. 用户画象说明具体(2%)
### 2.需求列表:人工智能api加值优先级排序 > 问题需求 3. 需求列表展示**API智能加值**(2%) > 问题需求4. 需求列表展示**优先级排序**(2%) > 问题需求5. 需求论证展示利害相关者分析(2%):展示了关键API人工智能类型的关键影响,如**人工智能类型** |优先级排序| 需求分析 | api智能加值 | 可用api | 人工智能类型 | | ---- | ---- | ---- | ---- | -- | |1(重要)| 从音频录制到长音频识别转文字 | 是 | 音频文件转写api | 语音技术 | |2(重要)| 从长文本识别到纠正改错转化为正确文本输出 | 是 | 文本纠错api | 自然语言处理 | |3 (次重要)| 音频转化时间的控制 | 否 | \ | \ | |4(一般)| 字体美化 | 否 | \ | \ | ### 3. 利益相关者分析、系统性偏、ESG考量: >问题需求5. 需求论证展示利害相关者分析(2%):**利益相关者分析**、**系统性偏差**及**ESG考量**等等 * 3.1 **利益相关者**: - 用户:想要获取长音频到正确长文本的输出 产品开发者:确定产品的价值主张,分析产品价值 - 系统整合开发人员:整合api的技术,为用户提供产品服务,使智能产品价值满足用户需求 - API提供者:提供API技术支持及功能实现,减小语言识别错误率和文本矫正准确率,提高用户使用体验 * 3.2 **系统性偏差**: - 可能因音频不清晰而造成识别错误 - 可能因音频中口音过重而造成无法识别某些字段 - 可能因背景过于嘈杂而造成文本句子乱入导致语句不通顺 * 3.3 **ESG考量**: - 环境:直接生成电子文稿,减少纸张和笔墨的使用,呼吁低碳节能可持续的生活理念 - 社会:劳动效率的提高,减少社会人才资源的浪费 - 生活:办事效率的提高,节省时间学习其他事情,有利于多功能人才的培养 ## 二、产品原型及关键智能交互的解决方案 ### 1.界面流程及关键智能交互 >**解决方案-界面总1. 用户体验/旅程分析的基础(2%)** #### (1) 用户使用流程图: ![用户使用流程](https://gitee.com/li_man_qi/api-final-project/raw/master/picture/%E7%94%A8%E6%88%B7%E4%BD%BF%E7%94%A8%E6%B5%81%E7%A8%8B%E5%9B%BE.png) #### (2) 原型图查看: 请点击:[原型图](https://modao.cc/app/afceeab3ff01fd2c19344bf0d2491489c45435e4#screen=skk6huuiekefx16) #### (3) 产品界面流程图: ![产品界面流程](https://gitee.com/li_man_qi/api-final-project/raw/master/picture/%E4%BA%A7%E5%93%81%E7%95%8C%E9%9D%A2%E6%B5%81%E7%A8%8B%E5%9B%BE.png) #### 注: - 本产品通过 **百度音频文件转写API** 和 **百度文本纠错API** 来简化会议记录和课堂笔记流程,来方便人们工作和学习 - **百度音频文件转写API** :在转换内容的文本内容输出结果处使用 - **百度文本纠错API** :在文本纠错页面输出结果处使用 >**解决方案-界面总2. 设计的用户可欲性(4%)** >**解决方案-界面总3. 设计的技术可行性(4%)** >**解决方案-界面总4. 设计的商业可行性(4%)** - 产品原型设计IDEO三要素总结: |用户可欲性|手动做会议笔记或者课堂笔记有时候往往来不及或者有缺漏,当下是一个快节奏的社会,有时课程往往一节接一节,会议转场频繁等等因素导致笔记不能及时做,过后又容易遗忘点什么,这时便可用到该产品。 |----|----| |技术可行性|当前语音技术和自然语言处理等的发展已日益完善,准确性在不断的提高。当前该API的使用已能够满足日常使用的需求,并以不断更新的技术性在更好地满足用户的需求。| |商业可行性|该产品的商业可用性在于产品的易用性和便捷性,具有市场前景。产品未来的发展方向是与文章、论文、小说等平台和翻译软件合作,实现产品的商业性发展| ### (2)交互及界面设计 >**解决方案-界面细1. 加值输入细节(4%)** >**解决方案-界面细2. 加值输出细节(4%)** >**解决方案--界面细3. 界面流程图突出智能交互(4%)** - 3个api的使用介绍: | api接口 | 功能 | 平台 |技术文档| | ---- | ---- | ---- | ---- | | 音频文件转写 | 可以将大批量的音频文件异步转写为文字。适合批量录音质检、会议内容总结、录音内容分析等场景,通过语音识别引擎精准、快速的转为文字,12小时内返回识别结果 |[百度智能云-音频文件转写介绍](https://ai.baidu.com/tech/speech/aasr)|[音频文件转写技术文档](https://ai.baidu.com/ai-doc/SPEECH/Bk5difx04)| | 文本纠错| 识别输入文本中有错误的片段,提示错误并给出正确的文本结果。支持短文本、长文本、语音等内容的错误识别,纠错是搜索引擎、语音识别、内容审查等功能更好运行的基础模块之一。 | [百度智能云-文本纠错介绍](https://ai.baidu.com/tech/nlp_apply/text_corrector)|[文本纠错技术文档](https://ai.baidu.com/ai-doc/NLP/Ik6z52gp8)| - **加值输入细节**:上传音频文件 --> 可选择多种文件类型 --> 进行语音识别 --> - **加值输出细节**:输出语音识别内容 --> 可保存为多种文件格式 --> 可直接跳转进行文本纠错 --> 进行文本纠错识别 --> 输出可保存为多种格式 - 产品界面**交互流程**:
- 关键**智能交互**技术:音频文件转写 文本纠错 API ### (3)解决方案原型表述/原型 - 产品原型 ![产品原型](https://gitee.com/li_man_qi/api-final-project/raw/master/picture/%E5%8E%9F%E5%9E%8B%E6%B5%81%E7%A8%8B%E5%9B%BE.png) - 原型交互流程表述: - 在主页点击中心欢迎使用进入使用界面 - 注册登录使用 - 上传音频进行识别(关键智能交互) - 识别后返回结果或是继续进行文本纠错(关键智能交互) - 确认输出保存到我的文件中心或是本地 (关键智能交互) - [原型交互预览](https://modao.cc/app/afceeab3ff01fd2c19344bf0d2491489c45435e4#screen=skk6huuiekefx16) ### 2.数据流程及关键智能API使用 ### (1)DFD数据流程图及数据简介 >**解决方案-数据流程总1. 数据流程分析和界面流程的匹配(2%)** - 用户前台交互 及 后台数据流程步骤匹配: 用户上传文件识别类型 - 音频转换API:输入想要转换的文件 --> 系统进行识别,进行音频转化文字 --> 将转化好的文件保存到本地或再次进行跳转到文本纠错界面 - 文本纠错API:输入或提取想要转化的文件 --> 将转化好的文件保存到我的文件或继续再次进行纠错 >**解决方案-数据流程总2. 数据流程设计的用户可欲性(4%)** >**解决方案-数据流程总3. 数据流程设计的技术可行性(4%)** >**解决方案-数据流程总4. 数据流程设计的商业可行性(4%)** - 数据流程设计IDEO三要素总结: |**用户可欲性**|返回数据从用户所需出发考量,为用户提供他所需要信息内容| |-- | -- | |**技术可行性**|通过自然语言识别和语音技术处理,实现难度不大| |**商业可行性**|数据正确性高,成本合适| 价格: ![文本纠错价格表](https://gitee.com/li_man_qi/api-final-project/raw/master/picture/%E6%96%87%E6%9C%AC%E7%BA%A0%E9%94%99%E6%8A%A5%E4%BB%B7.png) ### (2)代码实现 >**解决方案-数据流程细1. 代码及数据展示加值(4%)** #### 1.音频转换api调用: ``` import urllib.request import urllib,sys import ssl host = 'https://aip.baidubce.com/oauth/2.0/token?' \ 'grant_type=client_credentials&client_id=oYLGtS625Sx3juL36HA8SGqh&client_secret=a7Rg5WjQYXnE7zF1Pmc2PE8H7nEaIj5c' request = urllib.request.Request(host) request.add_header('Content-Type', 'application/json; charset=UTF-8') response = urllib.request.urlopen(request) content = response.read() if (content): print(content) ``` #### 2. 百度文本纠错API - 使用代码获取assess_token ``` import urllib.request import urllib,sys import ssl host = 'https://aip.baidubce.com/oauth/2.0/token?' \ 'grant_type=client_credentials&client_id=oYLGtS625Sx3juL36HA8SGqh&client_secret=a7Rg5WjQYXnE7zF1Pmc2PE8H7nEaIj5c' request = urllib.request.Request(host) request.add_header('Content-Type', 'application/json; charset=UTF-8') response = urllib.request.urlopen(request) content = response.read() if (content): print(content) ``` - 通过assess_token调用百度文本纠错API并输出结果 ``` # -*- coding: utf-8 -*- #!/usr/bin/env python import urllib import json #Access Token的有效期为30天(以秒为单位),请您集成时注意在程序中定期请求新的token #client_id 为官网获取的AK, client_secret 为官网获取的SK client_id ='oYLGtS625Sx3juL36HA8SGqh' client_secret ='a7Rg5WjQYXnE7zF1Pmc2PE8H7nEaIj5c' #获取token def get_token(): host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=' + client_id + '&client_secret=' + client_secret request = urllib.request.Request(host) request.add_header('Content-Type', 'application/json; charset=UTF-8') response = urllib.request.urlopen(request) token_content = response.read() if token_content: token_info = json.loads(token_content) token_key = token_info['access_token'] return token_key def txt_correction(content): print('原文:', content) token = get_token() url = 'https://aip.baidubce.com/rpc/2.0/nlp/v1/ecnet' params = dict() params['text'] = content params = json.dumps(params).encode('utf-8') access_token = token url = url + "?access_token=" + access_token request = urllib.request.Request(url=url, data=params) request.add_header('Content-Type', 'application/json') response = urllib.request.urlopen(request) content = response.read() if content: content = content.decode('GB2312') data = json.loads(content) item = data['item'] print('纠错后:', item['correct_query']) print('Score:', item['score']) txt_correction('百度是一家人工只能公司') ``` ### (4)相似API接口、平台对比 >**解决方案-数据流程细1. 代码及数据展示加值(4%)** >各个平台的对比优势分析、可取代性 - [腾讯录音识别](https://ai.baidu.com/tech/speech?track=cp:ainsem|pf:pc|pp:chanpin-yuyin|pu:yuyin-yuyinshibie-pinpai|ci:|kw:10003643) ![输入图片说明](https://images.gitee.com/uploads/images/2020/0725/201349_e4779c16_2229911.png "腾讯语音识别.png") - [阿里录音识别](https://help.aliyun.com/document_detail/141736.html?spm=5176.13910061.sslink.7.63d27a75sXPcOb) ![阿里录音识别](https://images.gitee.com/uploads/images/2020/0725/201430_cb7dd059_2229911.png "阿里预付费方式.png") ### 输出结果 - [腾讯录音识别](https://ai.baidu.com/tech/speech?track=cp:ainsem|pf:pc|pp:chanpin-yuyin|pu:yuyin-yuyinshibie-pinpai|ci:|kw:10003643)![腾讯录音识别](https://images.gitee.com/uploads/images/2020/0725/201532_d41a327a_2229911.png "腾讯api.png") - [阿里录音识别](https://help.aliyun.com/document_detail/141736.html?spm=5176.13910061.sslink.7.63d27a75sXPcOb) - ![阿里录音识别](https://images.gitee.com/uploads/images/2020/0725/201610_e001d864_2229911.png "阿里api.png") #### 使用后风险报告 * 1.录音识别 - 腾讯家的录音识别受录音内的噪音影响较大会出现有非录音内容的文本 - 输入文件都是以wav或是mp3格式为主的,输入的文件格式还是有一定的限制的 - 目前基本上国内的开放平台都有录音识别这个API接口,可以说竞争是很大的 - 录音识别API可以使用在会议总结、庭审录入、医院病历录入等多方面,还是有一定发展前景的 * 2.文本纠错 - 目前国内只有百度一家有比较成熟的文本纠错API接口,竞争不是太大 - 文本纠错API可以使用在搜索纠错和写作辅助等方面,有一定发展前景 * 3.总结: 百度AI开放平台所提高的接口较为丰富,数据量较多,并且价格优惠 其他的开放平台API接口也可作为替代或补充功能来使用。 ### (6)再加值思考 - 通过用户的使用数据积累,进行更加深入的音频和文字识别学习,提高其精确。 - 分析和了解用户使用文本习惯,完善产品推荐适合的文件类型。 ## 三、API及人工智能学习心得 > **心得总结1. 同行/同侪参考价值(4%)** ### 1. 心得及项目总结 - 通过一学期以来的学习,我对API及人工智能有以下几点心得。 - 第一是对市面上常见的API及其调用有了简单的实践和操作经验积累。 - 其次是认识到要从用户需求及智能价值出发去考虑API及人工智能的使用。API及人工智能的出现,不仅仅是技术上的变革,也给产品开发提供了一些新的方向和思路。 - 并且,我也认识到API对现代生活产生的影像,在从小的方面上看,它以逐渐的生活化和普遍的出现在我们的日常生活之中,便利人们的生活。 - 本次的产品使用开放平台“语音技术中音频文件转写”+“自然语言处理中文本纠错”API,核心价值是有效的帮助用户轻松做课堂记录和学习笔记,成为生活中贴心小助手。 >**心得总结2. 对同行/同侪成果的尊重引用(4%)** ### 2.感谢 - 感谢在本次的API产品文档设计过程中参考了开放平台API文档及行业报告,为完善产品提供帮助。感谢这一学期来智超老师在专业课上授予的知识和给予的帮助,让我们更好的学习了api这门课程。同时也特别感谢在项目完成过程中给予帮助的网新学子们,在未来探索代码,探索学习的过程中能继续互帮互助走向成功,网新永远一家亲! - 项目关键代码参考来自: - [百度AI开放平台](https://ai.baidu.com/ai-doc/IMAGERECOGNITION/tk3bcxbb0) - 本学期学习使用的API开放平台及学习资源 - [阿里云云市场](https://market.aliyun.com/?spm=5176.12825654.h2v3icoap.5.1f012c4ajNsqDZ) - [Azure](https://azure.microsoft.com/zh-cn/) - [高德开放平台](https://lbs.amap.com/)