# bigdata **Repository Path**: jxywb/bigdata ## Basic Information - **Project Name**: bigdata - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-06-22 - **Last Updated**: 2025-06-22 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 广东省大数据毕业生数字企业薪资数据ETL清洗项目 ## 项目概述 本项目针对广东省大数据毕业生在数字企业的薪资情况进行数据采集、清洗和分析。通过ETL(Extract, Transform, Load)流程,实现数据的提取、转换和加载。 ## 项目结构 ``` ├── README.md # 项目说明文档 ├── requirements.txt # Python依赖包 ├── data/ # 数据目录 │ ├── raw/ # 原始数据 │ ├── processed/ # 清洗后数据 │ └── output/ # 最终输出数据 ├── src/ # 源代码目录 │ ├── crawler/ # 爬虫代码 │ ├── etl/ # ETL处理代码 │ └── utils/ # 工具函数 ├── docs/ # 文档目录 │ ├── 课程设计报告.docx │ ├── 小组会议纪要1.docx │ └── 小组会议纪要2.docx ├── kettle/ # Kettle/PDI相关文件 │ ├── jobs/ # .kjb作业文件 │ └── transformations/ # .ktr转换文件 └── videos/ # 演示视频目录 ``` ## 环境要求 - Python 3.8+ - pandas - requests - beautifulsoup4 - selenium - pymysql - openpyxl ## 安装依赖 ```bash pip install -r requirements.txt ``` ## 使用说明 1. 运行数据爬虫:`python src/crawler/salary_crawler.py` 2. 执行ETL清洗:`python src/etl/data_cleaning.py` 3. 生成分析报告:`python src/etl/data_analysis.py` ## 作者 - 课程:ETL数据清洗课程设计 - 指导教师:黄金土