# stars-smart-favorites-prd

**Repository Path**: ZhuDilun/stars-smart-favorites-prd

## Basic Information

- **Project Name**: stars-smart-favorites-prd
- **Description**: API、机器学习与人工智能｜期末项目：Stars 智能收藏夹 — 产品需求文档
- **Primary Language**: Python
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 2
- **Forks**: 0
- **Created**: 2021-01-17
- **Last Updated**: 2025-03-08

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

|文档名称|Stars 智能收藏夹 — 产品需求文档|
|:--:|:--|
|产品名称|Stars|
|产品描述|一款能够智能分析并归类收藏内容、根据使用场景智能呈现收藏内容的收藏夹App|
|产品版本|1.0|
|文件作者|朱迪伦|

---

## MVP加/价值主张宣言
#### 项目标题
Stars - 智能收藏夹：轻松归类，永不吃灰
#### 项目简介
##### 1. 问题情境
智能手机与移动应用是人们获取资讯、学习知识、记录生活必不可少的工具。各个应用都拥有着收藏功能，方便用户保存对自己日后有用的优质内容。但是苦于应用的分散、缺乏易用的内容分类功能以及人们“收藏 = 已读”的思想，这些内容总是“在收藏夹里吃灰”，并没有实现用户收藏时所希望的价值。

##### 2. 解决方案
前期用户调研得出的用户痛点与解决方案构思
![解决方案构思](prd-images/解决方案构思.png)

主要：
* 运用文章标签、图像标签、通用文字识别、语音识别、视频内容分析API，对用户各类收藏进行内容分析。

辅助：
* 运用Siri建议智能呈现用户所需内容。

##### 3. 产品描述
Stars 是一款能够智能分析并归类收藏内容、根据使用场景智能呈现收藏内容的收藏夹App。它可以很大程度上节省用户整理与分类收藏的时间，并增加用户再次查看收藏内容的机会，实现收藏内容的价值。

---

## 一、问题需求
### 1. [使用情境](http://www.cs.columbia.edu/~feiner/courses/csw4170/useScenariosAndPersonas.html)与[用户画象](https://clevertap.com/blog/user-personas/)
![使用情境与用户画象](prd-images/使用情境与用户画象.png)
### 2. 需求列表
用户需求 | 智能加值 | 使用API | 优先级 |
  ----  | ----  | ----  | ----  
快速对收藏的文章进行分类 | 通过自然语言处理对文章进行内容识别与分类 | 文章标签API | 一（最重要）
快速对收藏的图片进行分类 | 通过计算机视觉对图片进行内容识别与分类 | 图像标签API | 二（最重要）
快速对收藏的带有文字的图片进行分类 | 通过OCR对图片中的文字进行识别 | 通用文字识别API | 三（重要）
快速对收藏的音频进行分类 | 通过语音转文字对音频进行内容识别与分类 | 语音识别API | 四（次重要）
快速对收藏的视频进行分类 | 通过视频分析对视频进行内容识别与分类 | 视频内容分析API | 五（次重要）

### 3. 需求论证
#### 3.1 用户价值主张
![价值主张画布](prd-images/价值主张画布.png)

#### 3.2 利害相关者
用户在使用 Stars 后，其收藏的效率将会大大提升，同时能更好实现收藏的内容应有的价值，促进用户个人的进步和发展。用户所收藏的优质的内容也有更多的曝光率，间接增加了原作者的流量。

#### 3.3 关键API人工智能类型
**使用的API**  
文章标签、图像标签、通用文字识别、语音识别、视频内容分析API  

**API类型**  
以上API所使用的人工智能都是弱人工智能的类型。
- 目前几乎所有的人工智能系统都是弱人工智能。弱人工智能是面向单一任务，没有认知能力的人工智能。
- 这些机器只能完成其编程所赋予的任务，因此只具备非常窄的能力范围。

**对解决方案的可能关键影响**  
以上API可能不足以很好地分析所有收藏内容，对一些内容的理解与分析能力不够强大，输出一些并不符合事实的内容标签，对用户造成疑惑。

#### 3.4 系统性偏差
**对解决方案的可能关键影响**  
因人工智能API的识别正确率并非百分之百，存在一定的识别错误或识别失败可能性。错误的内容标签可能需要用户后期进行自行调整。

#### 3.5 [ESG](http://finance.sina.com.cn/esg/about.shtml)考量
**ESG问题**
- 用户隐私安全。用户收藏内容与偏好若被泄露将影响用户的个人隐私安全。

**ESG机会**
- 建立信息保护机制，向用户承诺用户信息的绝对保密性，不随便泄露用户的信息。
- 加密技术。利用端到端加密让用户的收藏数据在其所有设备上保持同步。
- 本地化。智能推荐的个性化功能，均直接创建在用户自己的设备上。让发生在设备上的东西保留在设备上。最大限度减少需要发送到服务器的数据。需要在云端处理的数据，在不与API平台共享用户身份信息的前提下，才对用户提供的数据进行分析。

---

## 二、解决方案：界面流程及关键智能交互
### 1. 交互原型
[体验链接](https://lanhuapp.com/url/xhRjv) 请将“设备类型”调为iPhone X以获得最佳体验。

### 2. [用户体验/旅程分析](https://clevertap.com/blog/user-journey-map/)
![用户旅程](prd-images/用户旅程.png)
### 3. 关键智能API思路方法之 [DFV 模型](https://www.permissiontoplay.co/fieldnotes/lenses-of-human-centred-design-desirability-feasibility-viability/)
#### 3.1 用户可欲性 Desirability
App使用方法简单，用户只需上传URL链接或文件，App便调用API对用户的收藏内容进行自动识别并分类。用户无需过多操作即可完成对收藏内容的分类。同时，借助Siri Suggestion功能，让特定内容在特定时间、场景智能呈现给用户，简便了用户的使用。
#### 3.2 技术可行性 Feasibility
着眼于用户对提供收藏效率的需求，调用文章标签、图像标签、通用文字识别、语音识别、视频内容分析的API服务，便可以通过各类API对用户的收藏内容进行分析，获得内容对应的标签。上述人工智能API的能力优异，识别准确率均在九成多以上，能够很好地服务用户。
#### 3.3 商业可行性 Viability
腾讯云、百度智能云提供了一定数量的免费API调用额度和优惠的额度套餐服务支持我们的产品技术运行。而且成本低廉，本App所需要用到的、最便宜的智能API接口调用价格仅为0.0023元/次。同时，本App还可以通过提供付费订阅Pro版功能，让有需求的用户支付相关的API调用成本费用，在为用户提供更多人工智能API功能的同时实现盈利。
![商业模式画布](prd-images/商业模式画布.png)

### 4. 加值输入、输出细节
![加值输入、输出细节-1](prd-images/加值输入输出细节-1.png)
![加值输入、输出细节-2](prd-images/加值输入输出细节-2.png)

**以下附带更多图表协助阐释本产品细节功能。**
#### 功能结构图
![功能结构图](prd-images/功能结构图.png)
#### 信息流程/结构图
![信息流程/结构图](prd-images/信息结构图.png)
#### 产品流程图
![产品流程图](prd-images/产品流程图.png)
### 5. 界（页）面流程图与界面设计
通过下方界（页）面流程图与界面设计，可清晰了解本产品的交互细节。其中，除登陆页、账号及设置页外，均涉及到关键智能交互。
![界（页）面流程图](prd-images/界面流程图.png)
![界面设计](prd-images/界面设计.PNG)

---

## 三、解决方案：数据流程及关键智能API使用
### 1. 数据流程图分析
![数据流程图](prd-images/数据流程图.png)
### 2. 产品设计成果之 [DFV 模型](https://www.permissiontoplay.co/fieldnotes/lenses-of-human-centred-design-desirability-feasibility-viability/)
#### 2.1 用户可欲性 Desirability
通过一键收藏分类收藏内容与智能呈现收藏内容的功能，大大减少用户在整理与检索收藏内容的时间成本。同时，Stars的界面简洁、操作简便，用户学习成本低，易于上手。
#### 2.2 技术可行性 Feasibility
通过获取用户输入的文章URL、图片等数据，借助文章标签、图像标签、通用文字识别、语音识别、视频内容分析API，在识别后为用户的收藏内容提供标签，自动为用户完成对收藏内容的整理工作。腾讯云、百度智能云的成熟技术与且具有较高准确性的人工智能API能够为我们的用户提供稳定且高质量的服务。
#### 2.3 商业可行性 Viability
目前用户的收藏内容均分散于各个App之中，用户检索收藏内容时需要耗费大量时间与精力；同时各类App的收藏整理能力较弱，并不被用户满意。因此，市场缺少并渴望这样一款智能收藏夹App，其用户需求较大，市场前景广阔。
### 3. API代码（Python代码文件版见：[API调用.py](https://gitee.com/ZhuDilun/stars-smart-favorites-prd/blob/master/API%E8%B0%83%E7%94%A8.py)）
#### 3.1 百度智能云 - [文章标签API](https://cloud.baidu.com/doc/NLP/s/7k6z52ggx)
##### 接口描述
文本标签服务对文章的标题和内容进行深度分析，输出能够反映文章关键信息的主题、话题、实体等多维度标签以及对应的置信度，该技术在个性化推荐、文章聚合、内容检索等场景具有广泛的应用价值。

##### 请求说明
HTTP方法：```POST```  
请求URL：```https://aip.baidubce.com/rpc/2.0/nlp/v1/keyword```

##### 使用案例
输入：
```python
import requests

def baidu_keyword(title,content):
    """文章标签API"""
    url = "https://aip.baidubce.com/rpc/2.0/nlp/v1/keyword?access_token="+access_token
    data = {
        "title" : title,
        "content": content
    }
    encode_data=json.dumps(data).encode('UTF-8')
    headers = {
        'Content-Type':'application/json'
    }
    return requests.post(url,headers=headers,data=encode_data)
    
content_keyword = baidu_keyword("达达主义的诞生","达达主义诞生在欧洲，当时第一次世界大战的恐怖正在相当于公民的前院上演。被迫离开巴黎、慕尼黑和圣彼得堡，一些艺术家...").content #此处略去部分正文内容
content_keyword_str = str(content_keyword,encoding="GBK")
content_keyword_str_dict =json.loads(content_keyword_str)
content_keyword_str_dict["items"]
```
输出：
```python
[{'score': 0.937244, 'tag': '达达主义'},
 {'score': 0.929482, 'tag': '艺术'},
 {'score': 0.823062, 'tag': '文化'}]
```

#### 3.2 百度智能云 - [通用文字识别API](https://cloud.baidu.com/doc/OCR/s/zk3h7xz52)
##### 接口描述
基于业界领先的深度学习技术，提供多场景、多语种、高精度的整图文字检测和识别服务。

##### 请求说明
HTTP方法：```POST```  
请求URL：```https://aip.baidubce.com/rest/2.0/ocr/v1/general_basic```

##### 使用案例
输入：
```python
import requests

def baidu_ocr(img_url):
    """通用文字识别"""
    url = "https://aip.baidubce.com/rest/2.0/ocr/v1/general_basic?access_token="+access_token
    params = {
        "url": img_url
    }
    headers = {
        "content-type": "application/x-www-form-urlencoded"
    }
    return requests.post(url, data=params, headers=headers).json()

baidu_ocr("https://dilun.design/wp-content/uploads/2021/01/IMG_A59881A78A57-1.jpeg")
```
输出：
```python
{'words_result': [{'words': '歌词'},
  {'words': '见或不见'},
  {'words': '张敬轩'},
  {'words': '天空壯闊浩瀚遙望中有過嚮往'},
  {'words': '不甘各自繁忙人海偏教我們跌宕'},
  {'words': '更新你我近況人總是要向前望'},
  {'words': '背影在遠方大世界流浪'}],
 'log_id': 1347191878272942080,
 'words_result_num': 7}
```

#### 3.3 腾讯云 – [图像标签API](https://cloud.tencent.com/document/product/865/35471)
##### 接口描述
接口请求域名：```tiia.tencentcloudapi.com```  
图像标签利用深度学习技术、海量训练数据，可以对图片进行智能分类、物体识别等。

##### 使用案例
输入：
```python
import json
from tencentcloud.common import credential
from tencentcloud.common.profile.client_profile import ClientProfile
from tencentcloud.common.profile.http_profile import HttpProfile
from tencentcloud.common.exception.tencent_cloud_sdk_exception import TencentCloudSDKException
from tencentcloud.tiia.v20190529 import tiia_client, models

cred = credential.Credential("Your SecretId", "Your SecretKey") 
httpProfile = HttpProfile()
httpProfile.endpoint = "tiia.tencentcloudapi.com"

clientProfile = ClientProfile()
clientProfile.httpProfile = httpProfile
client = tiia_client.TiiaClient(cred, "ap-guangzhou", clientProfile) 

req = models.DetectLabelRequest()
params = {
"ImageUrl": "https://dilun.design/wp-content/uploads/2020/12/pexels-photo-4144923.jpeg"
}
req.from_json_string(json.dumps(params))

resp = client.DetectLabel(req) 
print(resp.to_json_string()) 
```
输出：
```python
{
    "Labels":[
        {
            "Name":"桌子",
            "Confidence":84,
            "FirstCategory":"物品",
            "SecondCategory":"家具家装"
        },
        {
            "Name":"艺术",
            "Confidence":79,
            "FirstCategory":"其他",
            "SecondCategory":"其他"
        },
        {
            "Name":"设计",
            "Confidence":43,
            "FirstCategory":"其他",
            "SecondCategory":"其他"
        } 
        # 此处略去部分正文内容
    ],
    "CameraLabels":null,
    "AlbumLabels":null,
    "NewsLabels":null,
    "RequestId":"bcb1591d-eacc-4418-a62f-6ff0e8be50b8"
}
```

#### 3.4 腾讯云 – [一句话识别API](https://cloud.tencent.com/document/product/1093/35646)
##### 接口描述
接口请求域名：```asr.tencentcloudapi.com```  
本接口用于对60秒之内的短音频文件进行识别。支持中文普通话、英语、粤语、日语、上海话方言。

##### 使用案例
输入：
```python
import json
from tencentcloud.common import credential
from tencentcloud.common.profile.client_profile import ClientProfile
from tencentcloud.common.profile.http_profile import HttpProfile
from tencentcloud.common.exception.tencent_cloud_sdk_exception import TencentCloudSDKException
from tencentcloud.asr.v20190614 import asr_client, models

cred = credential.Credential("Your SecretId", "Your SecretKey") 
httpProfile = HttpProfile()
httpProfile.endpoint = "asr.tencentcloudapi.com"

clientProfile = ClientProfile()
clientProfile.httpProfile = httpProfile
client = asr_client.AsrClient(cred, "", clientProfile) 

req = models.SentenceRecognitionRequest()
params = {
    "ProjectId": 0,
    "SubServiceType": 2,
    "EngSerViceType": "16k_ca",
    "SourceType": 0,
    "VoiceFormat": "mp3",
    "UsrAudioKey": "hins_test",
    "Url": "https://dilun.design/wp-content/uploads/2021/01/hins_test.mp3"
}
req.from_json_string(json.dumps(params))

resp = client.SentenceRecognition(req) 
print(resp.to_json_string())
```
输出：
```python
{
    "Result":"今次喺我拣嗰个方面呢，我都有上网睇到好多嘅留言啦，睇下有冇呢，啲歌系真系大家好想听或者好唔想听嘅啦，系嘛，即系有啲fans话唔想再听到樱花树下，因为事实上，Sorry今晚一定有你放心，唔会令你失望。抢下啦，好话唔好听首本名曲真系冇几多愁。好啦，我啲粉丝成日都嗌开个喎咁转发，真系头都晕埋我啲粉丝成日都幻想我开一个size嘅演唱会，职场嗰啲非主打歌噶。今晚喺呢度不如又试少少俾大家满足。",
    "AudioDuration":43571,
    "WordSize":0,
    "WordList":null,
    "RequestId":"9f677e36-72fa-417f-99ed-56e1804f3bbe"
}
```

#### 3.5 京东人工智能开放平台 - [视频内容分析API](https://aidoc.jd.com/thirdDocs/7/2dca72ed32764fc2847c090192ac780f-630.html)
##### 接口描述
1. 静态摘要  
服务支持用户上传一段视频，生成并返回该段视频的静态视频摘要结果，以关键帧(keyframe)JPG格式存储在staticThumbnail文件中， 同时返回镜头(shot)解析文档和场景(scene)解析文档。视频静态摘要上传接口提供用户上传待处理视频至处理服务。静态摘要状态查询接口提供用户查询处理进度，以及最终输出压缩文件(.zip)的下载链接。

2. 动态摘要  
服务支持用户上传一段视频，生成并返回该段视频的动态视频摘要结果，以MP4格式存储在motionThumbnail文件中， 同时返回镜头(shot)解析文档和场景(scene)解析文档。视频动态摘要上传接口提供用户上传待处理视频至处理服务。动态摘要状态查询接口提供用户查询处理进度，以及最终输出压缩文件(.zip)的下载链接

##### 请求说明
HTTP方法：```POST```  
静态摘要上传接口：```https://aiapi.jd.com/jdai/static_thumbnail```  
动态摘要上传接口：```https://aiapi.jd.com/jdai/motion_thumbnail```  
静态摘要状态查询接口：```https://aiapi.jd.com/jdai/static_thumbnail_status```  
动态摘要状态查询接口：```https://aiapi.jd.com/jdai/motion_thumbnail_status```

##### 使用案例
输入：
```python
# 上传视频
url = 'https://aiapi.jd.com/jdai/static_thumbnail'
img = '/Users/apple/Downloads/iPhone12.mp4' # 上传视频的位置
params = { 
    'video' : 'iPhone12.mp4',
    'appkey' : 'Your appkey',
    'secretkey' : 'Your secretkey'
}

response = wx_post_req( url, params, img=img )
print( response.text )
```
输出：
```
{"code":"10000","charge":true,"remain":45,"remainTimes":45,"remainSeconds":31533172,"msg":"查询成功,扣费","result":{"code":0,"message":"Success","task_id":"2021-01-07-16-48-10-9f255425ef703c8b439896eacc62849c"}}
```
输入：
```python
# 查询状态
url = 'https://aiapi.jd.com/jdai/static_thumbnail_status'
bodyStr = '{"task_id":"2021-01-07-16-48-10-9f255425ef703c8b439896eacc62849c"}' #body中的内容
params = { 
    'Content-Type' : 'application/json',
    'appkey' : 'Your appkey',
    'secretkey' : 'Your secretkey'
}

response = wx_post_req( url, params, bodyStr=bodyStr )
print( response.text )
```
输出：
```python
{"code":"10000","charge":true,"remain":44,"remainTimes":44,"remainSeconds":31533124,"msg":"查询成功,扣费","result":{"code":0,"editor_result":"http://storage.jd.com/static-thumbnail/2021-01-07-16-48-10-9f255425ef703c8b439896eacc62849c.zip","message":"Finish","progress_rate":100}}
```
下载并解压"editor_result"中的内容，便可得到视频精彩片段截图，进行下一步分析。

### 4. API使用比较分析
主要分析本App需求优先级最高的功能所需的两个API：文章标签、图像标签API。

#### 4.1 腾讯云文本分类对比百度智能云文本标签

##### 4.1.1 功能对比

**腾讯云文本分类**  
文本分类接口能够对用户输入的文本进行自动分类，将其映射到具体的类目上，用户只需要提供待分类的文本，而无需关注具体实现。

**百度智能云文本标签**  
文本标签服务对文章的标题和内容进行深度分析，输出能够反映文章关键信息的主题、话题、实体等多维度标签以及对应的置信度，该技术在个性化推荐、文章聚合、内容检索等场景具有广泛的应用价值。

##### 4.1.2 价格对比

**腾讯云文本分类** （[价格链接](https://cloud.tencent.com/document/product/271/36133)）

- 基础自然语言处理，将为每个腾讯云账号提供每天50万次的免费调用额度，当日剩余免费调用量不累积结转至第二天，每个自然日重置50万次免费额度。
- 在免费额度用完后，优先消耗购买的资源包。
- 在免费额度用完，且没有购买资源包或资源包用尽的情况下，将按照用户的实际调用量，以基准价进行计费。

基础 NLP 资源包

调用量 | 价格（元）
 :---: | :---: 
10万次 | 270
40万次 | 880
80万次 | 1600
400万次 | 6000
800万次 | 8000

按量计费定价

服务名称 | 价格
 --- | --- 
基础自然语言处理 | 27元/万次

**百度智能云文本标签**（[价格链接](https://cloud.baidu.com/doc/NLP/s/gk6z52dfl)）  
- 各API在每日免费额度用完后，超出部分需要按次数进行额外购买,可根据业务量评估，提前一次性付费购买对应规格的次数包，在有效期内产生计费的调用量优先使用次数包抵扣，所有有效次数包抵扣完毕后再自动转为按量后付费方式。

免费额度

企业认证状态 | 免费次数 
 --- | ---  
未完成企业认证 | 每个接口累计50万次
已完成企业认证 | 每个接口每天5万次

预付费次数包

次数包规格 | QPS额度 | 次数包价格（元） | 调用单价（元/次）
 --- | --- | --- | --- 
10万次|20|230|0.0023
30万次|20|630|0.0021
50万次|20|950|0.0019
100万次|20|1700|0.0017
300万次|20|4500|0.0015

按量计费定价

接口 | QPS额度 | 价格（元/次）
 --- | --- | --- 
文本纠错 | 20 | 0.0025

##### 4.1.3 总结
- 从功能上看，腾讯的文本分类是对用户输入的文本进行自动分类，而百度的文本标签则是对文章的标题和内容进行深度分析。对文章标题和内容都进行分析更符合本产品对收藏与分类文章的需求。
- 从价格上看，在10万次规格的次数包/资源包的调用单价中，百度调用单价更便宜，为0.0023元/次。在按量计费中，百度的单价也更低。性价比上百度比腾讯要好。

#### 4.2 腾讯云图像标签对比百度智能云通用物体和场景识别

##### 4.2.1 功能对比

**腾讯云图像标签**  
图像标签利用深度学习技术、海量训练数据，可以对图片进行智能分类、物体识别等。可以识别图片中的场景、物品、人物等信息，可用于相册分类、信息流内容推荐、广告推荐、视频内容理解、拍照识图等各种场景。

**百度智能云通用物体和场景识别**  
用于通用物体及场景识别，即对于输入的一张图片，输出图片中的多个物体及场景标签。

##### 4.2.2 价格对比

**腾讯云图像标签**（[价格链接](https://cloud.tencent.com/document/product/271/36133)）

免费额度  
只要开通了图像分析某项服务，该项服务都可以享受10,000次/月的免费调用额度，该10,000次免费次数将以免费资源包的形式配送，并在计费结算时优先扣减。

资源包

服务类型 | 月调用总量对应单价 | 0 - 1000千次/月 | 1000千 - 3000千次/月 | 3000千 - 15000千次/月 | 15000千次以上/月
 --- | --- | --- | --- | --- | --- 
图像理解 | 图像标签 | 2.5元/千次 | 2.2元/千次 | 2元/千次 | 1.5元/千次

**百度智能云通用物体和场景识别**（[价格链接](https://cloud.baidu.com/doc/NLP/s/gk6z52dfl)）

免费额度

产品服务 | 免费调用额度 | 超出免费额度
 --- | --- | --- 
通用物体和场景识别|500次/日|可开通按调用量后付费或购买次数包，按次计费，支持购买QPS叠加包

次数包

规格（次） | 价格（元）
 --- | ---
10万 | 270
50万 | 1250
100万 | 2200
500万 | 9500
1000万 | 17000

##### 4.2.3 总结

- 从功能上看，腾讯的图像标签是能够识别场景、物品、人物等信息，对图片进行智能分类。而百度的通用物体和场景识别则是输出图片中的多个物体及场景标签。百度的这个API主要是对图片中所有物体进行识别，而腾讯则是对图片的主要内容进行分类，更符合本App的定位。
- 从价格上看，百度的单价也更低，最高单价为0.0023元/次，而腾讯则为0.0025元/次。性价比上百度比腾讯要好。
- 但因为百度该API的功能定位与本App不同，故选择腾讯的API。

### 5. 数据流程图之智能API加值数据细节展示
![智能API加值数据细节展示](prd-images/智能API加值数据细节展示.png)

### 6. 人工智能概率性
#### 6.1 人工智能API准确能力呈现

1. 百度智能云 - 文章标签API

体精度高 | 维度丰富 | 覆盖率高 |
  ----  | ----  | ----    
基于大数据的深度学习，自动学习深层次的语义及语序特征，标签计算的精确度高 | 多种维度信息，包含主题、话题、实体等多种维度标签，全面覆盖文章中关键信息 | 文章标签对网页文章的覆盖率可达96% |

2. 百度智能云 - 通用文字识别API

准确率高 | 支持多语种识别 |
  ----  | ----    
针对图片模糊、倾斜、翻转等情况进行专项优化，鲁棒性强，多项ICDAR指标居世界第一，总体识别准确率高达99% | 通用文字识别支持对中、英、法、俄、西、葡、德、意、日、韩等20个语种的识别，并支持中、英、日、韩4个语种的类型检测 |

3. 腾讯云 – 图像标签API

准确率高 | 拓展性高 |
  ----  | ----    
基于腾讯多项行业领先的人工智能技术，支持数千个标签，可以实现一级标签平均精确率95%以上，二级标签平均精确率90%以上| 基于智能的深度学习算法，具备迁移学习能力，可以通过不断的训练使识别变得更智能，并且可以快速迭代以适应各种新场景|

4. 腾讯云 – 语音识别API

效果好 | 自助提升准确率 |
  ---- | ----    
字准率97%处于业界领先水平，与微信、王者荣耀的语音转文字使用一套服务，效果一样好| 针对垂直领域，上传词表或句子即可完成语言模型的自动优化，借助自训练平台，不懂算法也可轻松实现定制化模型，进一步提升识别准确率|

5. 京东人工智能开放平台 - 视频内容分析

行为分析更精准 | 识别准确 |
  ---- | ----    
不但能够分析进入/离开区域等简单行为，还能对打架、奔跑、聚集、倒地等各种复杂功能进行识别| 误报率和漏报率低，可根据客户的具体业务需求的进行定制化开发|

#### 6.2 人工智能产品概率性评估
##### 人工智能产品概率性问题
尽管上述各类API识别准确度高。但文章/图片标签的归类也会有机率存在不切合主题或不能完整概括内容的问题。而通用文字识别/语音转文字也可能存在识别出错别字的问题，影响提炼标签的功能。
##### 解决办法
需要通过用户人工二次修改标签、添加分类规则判断等方法将人工智能的失误降到最低。

---

## 四、心得总结及感谢
通过学习与完成《API、机器学习与人工智能》的课程与期末项目，我获益良多。机器学习与人工智能的能力发展与日俱增，许许多多的帮助人们更好生活与发展的技术被创造出来。通过使用智能API，我们就可以获取到这些技术和能力。

完成一款智能产品App的构思在刚起步阶段看上去是困难的，因为我们很容易被众多的API所“迷惑”，不知道能用这么多的能力做什么。但是，正是因为有如此多的能力，才能支持我们完成一款智能产品App。在构思阶段，我没有从众多API中选择要做的App，而是从我们日常生活中所遇到的问题出发，构思出一些解决方案，再寻找合适的API，如此一来便可开始着手编写智能产品App的产品需求文档。但值得注意的是，我们所构思出来的解决方案并不一定有对应的智能API，这时我们只能根据需求与能力作出取舍，把需要且能够实现的功能先实现出来，即“最小可行性产品（MVP）”。

在学习与完成本次智能产品需求文档时，我借助了很多互联网资源，藉此感谢：[腾讯云](https://cloud.tencent.com)、[百度智能云](https://cloud.baidu.com)、[Azure](https://azure.microsoft.com/zh-cn/)等API平台，提供了API产品与免费的API调用额度，让我有机会完成该产品与学习智能API的相关知识；[ProcessOn](https://www.processon.com)，提供了优秀的流程图制作工具；[Clever Tap](https://clevertap.com) 与[人人都是产品经理](http://www.woshipm.com)网站，分享了许多产品设计经验文章，协助我更好地完成产品设计阶段所需要的制作的用户画像、使用场景、用户旅程等图表。

---

- 独特非重复有效外连URL：20个
- 高水平原创图表：12张图 + 14张表

---

- 交互原型：[体验链接](https://lanhuapp.com/url/xhRjv) 
- 带语音旁白投影片：[录屏链接](https://www.bilibili.com/video/BV11z4y167iK)（在限定的时间6分40秒内）