欢迎加入我们~
Apache Hudi(发音为“hoodie”)是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi 提供表、事务、高效的更新插入/删除、高级索引、流式引入服务、数据聚类/压缩优化和并发性,同时以开源文件格式保留数据。 Apache Hudi不仅非常适合流工作负载,而且还允许您创建高效的增量批处理管道。阅读文档以获取更多用例描述,并查看谁在使用Hudi,以了解世界上一些最大的数据湖(包括Uber,Amazon,ByteDance,Robinhood等)如何通过Hudi改变其生产数据湖。 Apache Hudi可以很容易地在任何云存储平台上使用。Hudi的高级性能优化,使分析工作负载与任何流行的查询引擎,包括Apache Spark,Flink,Presto,Trino,Hive等更快。
基于docker的三个节点的hadoop集群,并配置了hive和sqoop。 将创建镜像和创建容器的命令以及内部运行节点的命令封装了脚本,