Iceberg 是一种适用于大型分析表的高性能格式。Iceberg将SQL表的可靠性和简单性带到了大数据中,同时使Spark,Trino,Flink,Presto,Hive和Impala等引擎能够安全地同时使用相同的表。
最近更新: 6个月前Arctic 是由网易开源的流式湖仓系统,Arctic 在 Iceberg 和 Hive 之上添加了更多实时场景的能力,并且面向 DataOps 提供流批统一,开箱即用的元数据服务,让数据湖更加好用和实用。
最近更新: 7个月前LakeSoul 是由数元灵科技研发的云原生湖仓一体框架,具备高可扩展的元数据管理、ACID 事务、高效灵活的 upsert 操作、Schema 演进和批流一体化处理等特性。
最近更新: 2年前Delta Lake是一个开源项目,可以在数据湖之上构建Lakehouse架构。Delta Lake 提供 ACID 事务、可扩展的元数据处理,并在现有数据湖(如 S3、ADLS、GCS 和 HDFS)之上统一流和批处理数据处理。 具体而言,Delta Lake提供: Spark ...
最近更新: 2年前数据湖上的 Serverless SQL Apache Kyuubi (Incubating),一个分布式和多租户网关,用于在 Lakehouse 上提供 Serverless SQL。
最近更新: 2年前Apache Kylin是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。Kylin 是一个开源的的分布式的,针对大数据场景下的高性能分析型...
最近更新: 2年前Apache Hudi(发音为“hoodie”)是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi 提供表、事务、高效的更新插入/删除、高级索引、流式引入服务、数据聚类/压缩优化和并发性,同时以开源文件格式保留数据。 Apache Hudi不仅非常...
最近更新: 2年多前