# bigdata **Repository Path**: johncarter/bigdata ## Basic Information - **Project Name**: bigdata - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-07-30 - **Last Updated**: 2026-02-02 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 一、代码情况 1、git submodule update --init # 二、大数据相关概念 ## 1、大数据分层存储架构:ODS、DWD、DWM与DWS ### ODS(Operational Data Store):操作数据存储层 **功能**: - **数据收集**:从各种业务系统中抽取原始数据。 - **数据存储**:存放未经过处理的原始业务数据。 - **数据管理**:为数据处理和分析提供基础数据。 **特点**: - 数据是从源系统直接复制的,保持原始状态。 - 主要用于支持操作型报表和实时查询需求。 - 数据频繁更新,提供最新的业务数据。 ### DWD(Data Warehouse Detail):数据仓库明细层 **功能**: - **数据清洗**:对ODS层的数据进行清洗,去除空数据、脏数据、离群值等。 - **数据规范化**:对数据进行规范化处理,提高数据质量和一致性。 - **详细数据存储**:保持高细节粒度的数据,支持跨部门和跨系统的共享和查询。 **特点**: - 数据质量高,经过清洗和标准化处理。 - 保留详细的业务数据,支持细粒度分析。 - 数据来源于ODS层,是数据仓库的基础层。 ### DWM(Data Warehouse Middle):数据中间层 **功能**: - **轻微聚合**:对DWD层的数据进行轻微聚合操作,生成中间结果表。 - **公共指标复用**:提升公共指标的复用性,减少重复加工的工作。 - **统计指标计算**:通过对核心维度进行聚合操作,计算统计指标。 **特点**: - 数据经过部分聚合,提供中间结果。 - 提供公共指标和统计结果,便于上层使用。 - 介于详细数据和汇总数据之间,起到承上启下的作用。 ### DWS(Data Warehouse Summary):数据仓库汇总层 **功能**: - **数据整合汇总**:基于DWM层的数据,整合汇总成分析主题域的数据服务层。 - **业务汇总分析**:提供业务汇总分析服务,用于业务查询、OLAP分析、数据分发等场景。 - **宽表设计**:每张表涵盖较多业务内容,字段较多。 **特点**: - 数据量相对较少,但每张表包含较多业务内容。 - 用于高层次的分析和决策支持。 - 提供最终用户查询和分析的高效数据访问。 ### 总结 每个层次在数据仓库架构中都有其独特的角色和功能,彼此之间相互关联,共同支持数据的收集、处理、分析和应用: 1. **ODS**:负责原始数据的收集和存储。 2. **DWD**:对数据进行清洗和规范化,存储详细数据。 3. **DWM**:对详细数据进行轻微聚合,生成中间结果。 4. **DWS**:整合汇总数据,提供高层次的业务分析和查询支持。 这种分层架构确保数据从源头到最终使用的过程中经过逐步加工和处理,保证数据的质量、一致性和可用性,从而支持各种业务需求和决策分析。 # 2、大数据主要服务模型 ## IaaS(Infrastructure as a Service):基础设施即服务 **描述**:提供虚拟化的计算资源,包括服务器、存储、网络和操作系统。 **特点**:灵活性高,用户可以自定义和控制基础设施。 **适用对象**:需要高度定制化和控制基础设施的用户。 --- ## PaaS(Platform as a Service):平台即服务 **描述**:提供开发和部署应用程序的平台,包括操作系统、中间件、数据库和开发工具。 **特点**:简化应用开发和管理,平台自动处理底层基础设施的管理和维护。 **适用对象**:开发团队和需要快速开发应用的需求。 --- ## SaaS(Software as a Service):软件即服务 **描述**:提供基于云的应用软件,通过互联网访问和使用。 **特点**:使用方便,用户无需安装、配置或管理软件,按需付费。 **适用对象**:需要即用即付的软件解决方案的用户。