# itheima-datawarehouse **Repository Path**: Marvin02/itheima-datawarehouse ## Basic Information - **Project Name**: itheima-datawarehouse - **Description**: 黑马甄选数仓项目 - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-09-10 - **Last Updated**: 2025-06-30 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # README ## 概述 本文档提供了该数据仓库项目的目录结构说明。项目结构涵盖了数据仓库的各个层次,从 ODS(操作数据存储层)到 ADS(应用数据存储层)。每个目录下组织了 SQL 脚本、ETL 过程和相关文档,帮助高效地进行数据管理和血缘追踪。 ## 目录说明 ### `/scripts` 此目录包含各层的数据仓库 SQL 脚本和数据导入逻辑: - **ods**:存储来自外部系统的原始数据。 - **dwd**:明细层,对原始数据进行清洗和转换后的数据。 - **dwm**:中间层,作为 DWD 和 DWS 层之间的过渡层。 - **dws**:汇总层,用于存储已聚合和准备分析的数据。 - **ads**:应用层,面向业务用户或报表系统的数据。 - **dim**:维度表,包含用于查找和参考的维度数据。 每层分为: - **`create_tables`**:用于创建该层所需表的 SQL 脚本。 - **`data_load`**:用于加载数据到该层表中的脚本。 ### `/etl` 此目录存储与 ETL(抽取、转换、加载)过程相关的内容: - **`jobs`**:ETL 任务脚本,如数据提取、转换和加载。(eg: mysql 数据生成脚本) - **`configs`**:ETL 过程的配置文件(如参数文件、任务调度)。(eg: datax json config) - **`logs`**:ETL 执行时生成的日志文件,用于跟踪和调试。 ### `/docs` 该目录包含所有与项目相关的文档: - **`data_lineage`**:记录数据从 ODS 到 ADS 层的流转过程及依赖关系的血缘文档。 - **`architecture`**:展示数据仓库总体架构的图表。 - **`design_spec`**:描述业务逻辑、表结构、数据需求等设计文档。 ## 使用说明 每个目录中的 `README.md` 文件应描述该目录的内容及其用途,并提供必要的设置或使用说明。例如: - SQL 脚本应包括表结构定义和使用示例。 - ETL 脚本应说明数据流动和转换的逻辑。 - 文档应提供数据血缘和系统架构的概述。 ## 贡献指南 添加新脚本或文档时,请遵循以下准则: 1. 将脚本放在对应的层级和子目录中。 2. 更新该目录中的 `README.md` 文件,说明新增内容的具体信息。 3. 遵循设计规范中定义的命名规则和编码标准。