MediaDB是一款多媒体数据库,致力于通过图像识别、语音识别、自然语言处理、机器学习、全文索引、分布式、数据库、大数据等技术,提供视频、图片、语音、文本等4种非结构化数据的存储、计算、标签和检索问题的一体化解决方案。
该项目,最早起源于2017年的电子图书馆计划,Nash为了整理自己收藏的几百万本 pdf 电子书,需要一种批量抽取pdf标签信息,批量构建目录层次,图书自动分类,高效存储、查询和检索的软件系统。后续在整理收藏的海量图片、教学视频、文章等资源时,又面临着相似的难题和窘境。
2020年,电子图书馆计划,升级为多媒体数据库项目,Nash和他的朋友们,决心打造一款企业级、非结构化数据——存储、分类、和检索的分布式数据库。
目前该项目处于需求分析和功能设计讨论阶段,欢迎业界各类技术、产品、设计、投融资人员,参与本项目。
2021-01-02,多媒体数据库 MediaDB 第一次需求讨论会,于浦东成功召开,共计11位人员出席。
时间:2021年1月2日 13:00-17:30
地点:上海市浦东新区陆家嘴环路958号,华能联合大厦1602室
### 会议议程
14:00-15:00 MediaDB 与会人员介绍
15:00-16:30 MediaDB 初步设计介绍
16:30-17:00 MediaDB 需求收集讨论
17:00-17:30 创业项目 开放式讨论
18:00-20:00 活动聚餐
岑亮,大数据
孙怡婷,投融资
王军,大数据
郭鹏,大数据
赵虎,大数据
邹平平,大数据
苏丙乐,数据分析
李洁,数据仓库
刘姝,跨境电商
陈佑雄,云计算
王赞,云计算
1.岑亮介绍了MediaDB的主要功能和系统设计,提出围绕视频、图片、音频、文章这4大类非结构数据,从存储、识别、标签、查询、播放到分析的一体化处理设想。
2.岑亮介绍了MediaDB的物理存储结构设计,提出开发统一的存储引擎,并优化压缩算法的设想。
3.岑亮介绍了MediaDB的逻辑存储结构设计,提出非结构表的逻辑存储应包含三类信息,原始数据、结构化元数据、非结构元数据。
4.岑亮介绍了MediaDB的识别系统设计,提出通过监督学习算法,从原始数据提取非结构元数据,进行自动内容识别和打标签。
5.岑亮介绍了MediaDB的分类系统设计,提出通过非监督学习算法,进行自动分类和构建标签层次,标签层次(即分类器)用于自动创建目录结构。
6.岑亮介绍了MediaDB的标签系统设计,提出通过全文索引技术,从非结构元数据提取分词和标签,标签系统服务于查询系统;
7.岑亮介绍了MediaDB的查询系统设计,提出用类SQL的查询语言MediaSQL,根据元数据(结构化、非结构化)和标签,查询场景化数据片段。
8.岑亮介绍了MediaDB的播放系统设计,提出根据查询条件,实现场景化播放功能。
9.岑亮介绍了MediaDB的其他功能设计,提出权限管理、数据迁移、副本机制、高可用、高性能、分布式的设想。
10.王赞提出了基于现有公有云技术,构建原生云数据库的设想,建议把非结构数据以原始格式保存到对象存储。
11.王赞从数据湖和企业重构底层存储的复杂性出发,提出了对开发统一存储引擎的异议,认为不需要统一存储格式,只需构建应用层接口,把底层数据以统一格式提供给外部使用即可。
12.王军从压缩算法突破的复杂性和格式转码的性能出发,提出了对开发统一存储引擎的异议。但表示对数据统一路径存储的认同,同时提出可以用插件式存储引擎的方式,导入非结构数据的同时,保留原始格式。
13.王军从平台绑定和数据安全性角度,表达了对公有云的忧虑,企业会更希望数据保存在自己可以管控的地方,例如私有云或自建IDC机房,认为数据库原生应该是可迁移的,并且是平台无关的。
14.王军提出了基于视频中的相对时间,构建上下帧的内容关联分析。
15.王军介绍了沃安科技公司,基于“大数据平台“的课堂教学动态监测系统,其系统结构和功能可以作为MediaDB实现的参考。
16.郭鹏从磁盘价格逐年下降,压缩算法对于降低企业存储成本意义不大的角度,提出了对开发统一存储引擎的异议。
17.郭鹏从商业角度,提出了MediaDB的核心价值在于识别、标签和基于标签的查询功能。
18.郭鹏分享了公安大数据项目,表达了只要把核心功能做出来,就会有企业买单的观点。与其先写出完整的系统设计论文,不如先把最简单的产品demo做出来。
19.郭鹏分享的公安大数据项目,其技术实现启发了我们可以基于Neoj4,实现国产版的Palantir(国外一家神秘的大数据独角兽公司)。
20.李洁提出了MediaDB的性能问题,表达了对MediaDB的内容识别和打标签过程中性能的关注。
21.孙怡婷分享了极数云舟的ArkDB融资项目,表达了ToB的产品定位,更容易获得资本市场的青睐。
网站:
Follow @aaa on Weibo
邮箱: