# hadoop-deployment **Repository Path**: mpv945/hadoop-deployment ## Basic Information - **Project Name**: hadoop-deployment - **Description**: 大数据的安装 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-05-26 - **Last Updated**: 2025-05-26 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 大数据平台部署项目 - Lakehouse 湖仓一体架构 ## 项目概述本项目旨在构建一个完整的大数据平台，实现湖仓一体（Lakehouse）架构，集成流批一体计算、数据湖、数据仓库等现代大数据技术栈。 ## 技术架构 ### 核心组件 #### 1. 存储层 (Storage Layer) - **Apache Hadoop HDFS 3.3.6** - 分布式文件系统 - **Apache HBase 2.6.2** - NoSQL 数据库 - **Apache Kudu** - 列式存储引擎 #### 2. 计算引擎 (Compute Engines) - **Apache Spark 3.5.5** - 统一分析引擎 - **Apache Flink v2.0.0** - 流批一体处理 - **Apache Hive 4.0.1** - 数据仓库软件（支持 Hive on Spark） - **Trino** - 分布式 SQL 查询引擎 - **Impala** - 高性能分析数据库 #### 3. 数据湖技术 (Data Lake Technologies) - **Apache Hudi** - 数据湖存储格式 - **Delta Lake** - 数据湖存储层 - **Apache Iceberg 1.9.0** - 表格式 - **Apache Paimon 1.2** - 流式数据湖平台 #### 4. 任务调度 (Job Scheduling) - **Apache Hadoop YARN** - 资源管理器 - **DolphinScheduler** - 工作流调度平台 - **Dinky v1.2.3** - 实时计算平台 #### 5. 数据集成 (Data Integration) - **ChunJun (原 FlinkX)** - 数据同步工具 #### 6. 消息队列 (Message Queue) - **Apache Kafka 4.0.0** - 分布式流处理平台 #### 7. 搜索与分析 (Search & Analytics) - **Elasticsearch 9.0.1** - 搜索和分析引擎 - **Logstash 9.0.1** - 数据收集引擎 - **Filebeat 9.0.1** - 轻量级日志采集器 #### 8. 数据库 (Databases) - **Redis 8.0** - 内存数据库 - **ClickHouse 25.5.1** - 列式数据库 - **TiDB v8.5.1** - 分布式 NewSQL 数据库 - **DuckDB v1.3.0** - 嵌入式分析数据库 - **TDengine 3.3.6.6** - 时序数据库 - **MongoDB 8.0.8** - 文档数据库 #### 9. OLAP 引擎 (OLAP Engines) - **StarRocks 3.4.3** - 极速全场景 MPP 数据库 - **Apache Doris 3.0.5** - 现代化数据仓库 ## 部署策略 ### 阶段一：单机部署 - 所有组件在单机环境下的安装和配置 - 基础功能验证和测试 ### 阶段二：集群 HA 部署 - 高可用集群架构设计 - 负载均衡和故障转移配置 ### 阶段三：性能优化 - 各组件性能调优 - 系统监控和运维 ## 项目结构 ``` hadoop-deployment/ ├── .cursor/ # Cursor AI 规则配置 │ └── rules/ # 规则文件目录 ├── docs/ # 文档目录 │ ├── installation/ # 安装文档 │ ├── configuration/ # 配置文档 │ ├── optimization/ # 优化文档 │ └── tutorials/ # 教程文档 ├── scripts/ # 部署脚本 │ ├── single-node/ # 单机部署脚本 │ ├── cluster/ # 集群部署脚本 │ └── monitoring/ # 监控脚本 ├── configs/ # 配置文件 │ ├── hadoop/ # Hadoop 配置 │ ├── spark/ # Spark 配置 │ ├── flink/ # Flink 配置 │ └── ... # 其他组件配置 └── examples/ # 示例代码和用例 ├── spark-examples/ # Spark 示例 ├── flink-examples/ # Flink 示例 └── integration-examples/ # 集成示例 ``` ## 快速开始 1. **环境准备** ```bash # 克隆项目 git clone cd hadoop-deployment # 检查系统要求 ./scripts/check-requirements.sh ``` 2. **单机部署** ```bash # 执行单机部署脚本 ./scripts/single-node/deploy-all.sh ``` 3. **集群部署** ```bash # 配置集群节点 ./scripts/cluster/setup-cluster.sh # 部署集群 ./scripts/cluster/deploy-cluster.sh ``` ## 文档导航 - [安装指南](docs/installation/README.md) - [配置指南](docs/configuration/README.md) - [优化指南](docs/optimization/README.md) - [教程指南](docs/tutorials/README.md) ## 贡献指南请参考 [CONTRIBUTING.md](CONTRIBUTING.md) 了解如何为项目做贡献。 ## 许可证本项目采用 Apache 2.0 许可证，详情请参考 [LICENSE](LICENSE) 文件。 ## 联系我们如有问题或建议，请通过以下方式联系： - 提交 Issue - 发送邮件至：[your-email@example.com] --- **注意**: 本项目仅供学习和研究使用，生产环境部署请根据实际需求进行调整和测试。