MediaDB: MediaDB是一款多媒体数据库，致力于通过图像识别、语音识别、自然语言处理、机器学习、全文索引、分布式、数据库、大数据等技术，解决视频、图片、语音、文本等4种非结构化数据的存储、计算、标签和检索问题

组织介绍

MediaDB是一款多媒体数据库，致力于通过图像识别、语音识别、自然语言处理、机器学习、全文索引、分布式、数据库、大数据等技术，提供视频、图片、语音、文本等4种非结构化数据的存储、计算、标签和检索问题的一体化解决方案。

该项目，最早起源于2017年的电子图书馆计划，Nash为了整理自己收藏的几百万本 pdf 电子书，需要一种批量抽取pdf标签信息，批量构建目录层次，图书自动分类，高效存储、查询和检索的软件系统。后续在整理收藏的海量图片、教学视频、文章等资源时，又面临着相似的难题和窘境。

2020年，电子图书馆计划，升级为多媒体数据库项目，Nash和他的朋友们，决心打造一款企业级、非结构化数据——存储、分类、和检索的分布式数据库。
目前该项目处于需求分析和功能设计讨论阶段，欢迎业界各类技术、产品、设计、投融资人员，参与本项目。

2021-01-02，多媒体数据库 MediaDB 第一次需求讨论会，于浦东成功召开，共计11位人员出席。

MediaDB 第一次需求讨论会

时间：2021年1月2日 13:00-17:30
地点：上海市浦东新区陆家嘴环路958号，华能联合大厦1602室

###　会议议程
14:00-15:00 MediaDB 与会人员介绍
15:00-16:30 MediaDB 初步设计介绍
16:30-17:00 MediaDB 需求收集讨论
17:00-17:30 创业项目开放式讨论
18:00-20:00 活动聚餐

与会名单

岑亮，大数据
孙怡婷，投融资
王军，大数据
郭鹏，大数据
赵虎，大数据
邹平平，大数据
苏丙乐，数据分析
李洁，数据仓库
刘姝，跨境电商
陈佑雄，云计算
王赞，云计算

会议纪要

1.岑亮介绍了MediaDB的主要功能和系统设计，提出围绕视频、图片、音频、文章这4大类非结构数据，从存储、识别、标签、查询、播放到分析的一体化处理设想。
2.岑亮介绍了MediaDB的物理存储结构设计，提出开发统一的存储引擎，并优化压缩算法的设想。
3.岑亮介绍了MediaDB的逻辑存储结构设计，提出非结构表的逻辑存储应包含三类信息，原始数据、结构化元数据、非结构元数据。
4.岑亮介绍了MediaDB的识别系统设计，提出通过监督学习算法，从原始数据提取非结构元数据，进行自动内容识别和打标签。
5.岑亮介绍了MediaDB的分类系统设计，提出通过非监督学习算法，进行自动分类和构建标签层次，标签层次(即分类器)用于自动创建目录结构。
6.岑亮介绍了MediaDB的标签系统设计，提出通过全文索引技术，从非结构元数据提取分词和标签，标签系统服务于查询系统；
7.岑亮介绍了MediaDB的查询系统设计，提出用类SQL的查询语言MediaSQL，根据元数据（结构化、非结构化）和标签，查询场景化数据片段。
8.岑亮介绍了MediaDB的播放系统设计，提出根据查询条件，实现场景化播放功能。
9.岑亮介绍了MediaDB的其他功能设计，提出权限管理、数据迁移、副本机制、高可用、高性能、分布式的设想。
10.王赞提出了基于现有公有云技术，构建原生云数据库的设想，建议把非结构数据以原始格式保存到对象存储。
11.王赞从数据湖和企业重构底层存储的复杂性出发，提出了对开发统一存储引擎的异议，认为不需要统一存储格式，只需构建应用层接口，把底层数据以统一格式提供给外部使用即可。
12.王军从压缩算法突破的复杂性和格式转码的性能出发，提出了对开发统一存储引擎的异议。但表示对数据统一路径存储的认同，同时提出可以用插件式存储引擎的方式，导入非结构数据的同时，保留原始格式。
13.王军从平台绑定和数据安全性角度，表达了对公有云的忧虑，企业会更希望数据保存在自己可以管控的地方，例如私有云或自建IDC机房，认为数据库原生应该是可迁移的，并且是平台无关的。
14.王军提出了基于视频中的相对时间，构建上下帧的内容关联分析。
15.王军介绍了沃安科技公司，基于“大数据平台“的课堂教学动态监测系统，其系统结构和功能可以作为MediaDB实现的参考。
16.郭鹏从磁盘价格逐年下降，压缩算法对于降低企业存储成本意义不大的角度，提出了对开发统一存储引擎的异议。
17.郭鹏从商业角度，提出了MediaDB的核心价值在于识别、标签和基于标签的查询功能。
18.郭鹏分享了公安大数据项目，表达了只要把核心功能做出来，就会有企业买单的观点。与其先写出完整的系统设计论文，不如先把最简单的产品demo做出来。
19.郭鹏分享的公安大数据项目，其技术实现启发了我们可以基于Neoj4，实现国产版的Palantir（国外一家神秘的大数据独角兽公司）。
20.李洁提出了MediaDB的性能问题，表达了对MediaDB的内容识别和打标签过程中性能的关注。
21.孙怡婷分享了极数云舟的ArkDB融资项目，表达了ToB的产品定位，更容易获得资本市场的青睐。

联系

网站：
Follow @aaa on Weibo
邮箱:

MediaDB

您正在申请加入MediaDB

申请已成功提交

MediaDB

组织介绍

MediaDB 第一次需求讨论会

与会名单

会议纪要

联系

搜索帮助