# 0306pm师大22大数据1234智能-py综合应用 **Repository Path**: darkTchr/0306pmhsd22dsj1234zn-pyzhyy ## Basic Information - **Project Name**: 0306pm师大22大数据1234智能-py综合应用 - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-03-06 - **Last Updated**: 2026-05-14 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 验收前准备 ## 个人提交-实践考核记录单 - 实践考核记录单 - 【项目文件夹】下创建目录,上传更新后的文档。 - 电子版,1个文档 - 修改文档基本信息,确保正确无误,后果自负 - 实验报告 - 【项目文件夹】下创建目录,上传更新后的文档。 - 电子版,1个文档 - 根据8周完成的内容,我带着写过的,项目名称(包括): i Hadoop HDFS基础操作与MapReduce词频统计 ii Hive数据仓库搭建与基本查询 iii Hive复杂数据分析——分区表与JOIN操作 - 注意文件命名【1-20251234567XXX-实践考核记录单/实验报告】 - 4月20日前完成,之后所有子分支push权限将全部关闭 ![](./imgs/c-1.png) **结构:** ``` ------ 项目总目录 -- day01 -- day02 .... -- XXX实践考核记录单(目录) ---- 1-202511234567XXX-实践考核记录单.doc -- XXX实验报告 ---- 1-202511234567XXX-实验报告 ``` ## 团队提交-项目验收 - 自行组队,确定组长及组员名单 - 分配任务,每个组员都需要有角色和任务 - 每组5-6人,至少3人发言(含组长) - 每组时长15-20分钟 - 由【组长】创建小组分支,分支名【team-01】,将验收资料提交 - 由【组长】提交分组名单及角色至issues - 由【组长】4月20日前完成所有准备,其他子分支push权限将全部关闭 ![](./imgs/issues.png) **结构:** ``` ------ 第777组项目验收(目录) -- 分组名单.txt -- 需求文档.docx -- 设计文档.docx -- 项目论文.docx -- XXXXXXXX项目答辩PPT.pptx -- XXXXXXXX项目源码(目录) ``` ## 题签 ### A卷项目:基于Hadoop生态的电商数据分析系统 1. **项目背景**:模拟电商企业海量订单、用户行为等数据场景,需借助Hadoop生态技术进行分析挖掘,辅助企业决策。 2. **数据来源**:可从公开电商数据集获取,或自行模拟(爬取)生成订单表(含订单ID、用户ID、商品ID、下单时间、金额等字段 )、用户表(含用户ID、性别、年龄等字段 )、商品表(含商品ID、类别、价格等字段 )。 3. **技术选型** - **数据存储**:HDFS用于分布式存储原始数据。 - **数据处理**:使用Hive构建数仓,进行数据清洗、转换和分析。利用Hive SQL实现诸如不同地区销售额统计、热门商品品类分析等功能。 4. **项目实现步骤** - **数据准备**:将模拟数据上传至HDFS指定目录。 - **数仓构建**:在Hive中创建数据库和对应表结构,导入HDFS数据。 - **数据分析**:编写Hive SQL完成关键指标计算,如按天统计订单数量、计算各年龄段用户消费金额占比等。 - **结果展示**:将分析结果导出,可借助Excel等工具可视化。 5. **答辩考核点** - 对HDFS存储原理及Hive数仓构建、SQL操作的理解。 - 项目架构设计合理性,能否解决实际电商数据分析问题。 - 数据处理过程中遇到的问题及解决方法。 ### B卷项目:基于Hadoop的气象数据分析平台 1. **项目背景**:气象部门积累大量气象数据,需利用Hadoop技术实现高效存储和分析,为气象研究和预报提供支持。 2. **数据来源**:采用气象站公开的历史气象数据或自行模拟(爬取),包含温度、湿度、风速、气压等字段,按时间序列记录。 3. **技术选型** - **数据存储**:依托HDFS存储海量气象原始数据。 - **数据处理**:运用Hive构建气象数据仓库,通过Hive SQL进行数据处理和分析,如计算每月平均温度变化、不同地区湿度分布情况等。 4. **项目实现步骤** - **数据采集与上传**:收集气象数据,处理成合适格式后上传至HDFS。 - **数仓搭建**:在Hive中定义数据库和相关表结构,导入数据。 - **数据分析**:编写Hive SQL查询,分析气象要素相关性、长期趋势等。 - **结果呈现**:将分析结果以图表形式展示,如折线图展示温度趋势。 5. **答辩考核点** - 对Hadoop生态技术在气象数据场景应用的理解深度。 - 项目中数据处理逻辑和分析方法的准确性。 - 能否清晰阐述项目对气象研究或业务的价值。 # 日清日结 ## 环境配置 加入项目团队(链接仅3天有效,加入后请勿离开仓库): ``` https://gitee.com/darkTchr/0306hsd22dsj12-pysjfx/invite_link?invite=e31435368d59fb5ba1a08b1cb9c14ab4c04ac8eb92cb25d8b7993663152babc57286688e96d3746f03eac9232b9ccfc5 ``` - 初次安装git,修改安装位置后,一直下一步即可。 - 最后的窗口默认选中的√可以勾掉,否则会弹出网页,叉掉即可,点击finish结束。 - win+r --> cmd --> 需分开执行两条命令↓↓↓,引号内容换成自己的真实信息(注意不要勿删命令语句中的空格) ```bash git config --global user.name "你的用户名" git config --global user.email "你绑定的邮箱" ``` 提交过程中,弹窗提示登陆gitee,输入手机号密码即可。 ![](./imgs/1.jpg) ![](./imgs/2.jpg) ![](./imgs/3.jpg) ![](./imgs/4.jpg) ![](./imgs/5.jpg) ![](./imgs/6.jpg) ![](./imgs/7.jpg) ![](./imgs/8.jpg)