# etl-data-develop-portfolio

**Repository Path**: da-qing-oh/etl-data-develop-portfolio

## Basic Information

- **Project Name**: etl-data-develop-portfolio
- **Description**: ETL数据开发 | 数据自动化 个人作品集
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-04-23
- **Last Updated**: 2026-04-30

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# ETL 数据开发工程师 — 技术作品集

> **定位**：数据工程与 ETL 开发 | **专注领域**：新能源电池行业数据治理与自动化
> **核心能力**：从数据采集、清洗、转换到可视化报表的全链路数据工程能力

***

## 一、个人简介

具备 **数据仓库搭建、ETL 流程开发、自动化报表生成** 全栈能力的数据工程师。在新能源电池行业深耕，擅长将分散的测试数据转化为结构化、可分析的数据资产，通过自动化工具替代重复人工操作，实现数据驱动的研发效率提升。

**解决的核心问题**：

- 电池测试数据分散在数百个 Excel 文件中，人工处理耗时耗力
- 数据格式不统一，跨批次对比困难
- 缺乏自动化调度机制，数据更新滞后
- 数据孤岛严重，无法支撑决策分析

***

## 二、项目全景图

```mermaid
graph TB
    subgraph 数据工程能力树["🌳 数据工程能力树"]
        direction TB
        
        subgraph 采集层["📥 数据采集层"]
            A1[Excel批量转换工具]
            A2[VBA数据导入引擎]
        end
        
        subgraph 存储层["💾 数据存储层"]
            B1[Hadoop分布式集群]
            B2[Hive数据仓库]
            B3[MySQL业务库]
        end
        
        subgraph 处理层["⚙️ ETL处理层"]
            C1[Kettle数据转换]
            C2[DolphinScheduler调度]
            C3[Pandas向量化计算]
        end
        
        subgraph 应用层["📊 数据应用层"]
            D1[电池循环分析报告]
            D2[压力数据匹配工具]
            D3[自动化报表系统]
        end
    end
    
    A1 --> B3
    A2 --> B3
    B3 --> C1
    C1 --> C2
    C2 --> B2
    B2 --> D1
    B2 --> D2
    B2 --> D3
    
    style 采集层 fill:#e3f2fd,stroke:#1976d2
    style 存储层 fill:#f3e5f5,stroke:#7b1fa2
    style 处理层 fill:#fff3e0,stroke:#ef6c00
    style 应用层 fill:#e8f5e9,stroke:#388e3c
```

***

## 三、项目详解

### 项目 1：锂电池外压数据批量匹配工具 (BatteryMatcher V3.0)

**技术栈**：Python + PyQt5 + Pandas + NumPy + PyInstaller

**解决的业务痛点**：

| 痛点   | 原方案（VBA）    | 本方案               | 提升幅度         |
| ---- | ----------- | ----------------- | ------------ |
| 性能瓶颈 | 万行数据耗时数十分钟  | **秒级处理**          | **10 倍+ 提速** |
| 稳定性  | Excel 易崩溃卡死 | **脱离 Office 进程**  | 零崩溃          |
| 批量能力 | 逐个文件手动执行    | **一键批量成百上千文件**    | 自动化          |
| 智能归档 | 人工按单号分类     | **自动读取委托单号+日期归档** | 零人工          |

**核心技术亮点**：

- **向量化计算**：使用 Pandas `groupby.agg` 替代 VBA 逐行 For 循环，底层 C 实现加速
- **多线程架构**：QThread 工作线程 + 主线程 UI 解耦，支持中途安全中断
- **配置化设计**：新增数据源无需改代码，仅需添加配置项（支持多厂商扩展）
- **拖拽交互**：支持文件夹拖拽，提升用户体验

**可量化成果**：

- 处理速度提升 **10 倍以上**
- 支持 **无人值守批量处理**
- 生成独立 `.exe`，一线工程师**零环境依赖开箱即用**

***

### 项目 2：电池循环测试报告数据处理与报表生成系统 (VBA)

**技术栈**：VBA + Excel/Office + ADO 数据库接口

**解决的业务痛点**：

| 痛点            | 传统手工方式 | 本系统自动化                  | 提升幅度          |
| ------------- | ------ | ----------------------- | ------------- |
| 处理时间（100 个电芯） | 4-6 小时 | **< 10 分钟**             | **25-36 倍提速** |
| 数据维度          | 3 张原始表 | **8 个专业 Sheet + 7 张图表** | **2.7 倍信息密度** |
| 人为出错率         | 15-20% | **≈0%（程序化校验）**          | **近乎消除**      |
| 可追溯性          | 无      | **全链路日志**               | 审计友好          |

**核心技术亮点**：

- **8 维度标准化分析**：循环分析、容量、能量、电压变化、保持率、效率等
- **7 张专业趋势图**：自动生成可视化图表
- **数据库接口**：新增 ADO 连接，支持 SQL 数据源
- **模块化架构**：8 个标准模块，6000+ 行代码，职责分离清晰

**可量化成果**：

- 单次处理 100+ 电池从 **4-6 小时缩短至 <10 分钟**
- 数据维度从 3 张表扩展至 **8 Sheet + 7 图表**
- 人为出错率从 **15-20% 降至 ≈0%**

***

### 项目 3：ETL 数据集成与调度平台 (Kettle + DolphinScheduler)

**技术栈**：Kettle (PDI-CE) + DolphinScheduler 3.2.2 + MySQL 8.0 + Docker Compose

**解决的业务痛点**：

| 痛点    | 原方案      | 本方案             | 提升幅度 |
| ----- | -------- | --------------- | ---- |
| 数据导入  | 手动执行 KTR | **定时自动调度**      | 全自动  |
| 跨机器部署 | 无法分发     | **Docker 一键部署** | 可复用  |
| 参数管理  | 硬编码路径    | **命名参数化**       | 灵活配置 |
| 任务监控  | 无        | **Web UI + 告警** | 可观测  |

**核心技术亮点**：

- **三层架构**：数据层（CSV）→ 调度层（DS）→ ETL 层（Kettle）→ 存储层（MySQL）
- **KTR 参数化改造**：引入 `${DB_HOST/PORT/NAME/USER/PASS/INPUT_DIR}` 命名参数
- **Docker 容器化**：MySQL + Kettle Carte + DS standalone 一键编排
- **Windows 一键部署**：`deploy.bat` 实现环境检查 → 容器启动 → 健康检查

**可量化成果**：

- 实现 **跨机器定时调度** ETL 任务
- 支持 **批量扫描 + 单文件模式** 双模式
- 部署时间从数小时缩短至 **分钟级**

***

### 项目 4：Excel 批量处理工具（ETL 前置预处理）

**技术栈**：Python + PyQt5 + Pandas + PyInstaller

**解决的业务痛点**：

- 电池测试部门每天处理 **数百个 Excel 文件**，人工转换耗时耗力
- 多 Sheet 结构复杂，手动处理易遗漏
- 作为 ETL 平台的前置工具，需标准化输出 CSV

**核心技术亮点**：

- **批量转换**：一键将多 Sheet Excel 转换为标准化 CSV
- **数据清洗**：格式标准化、命名规范化
- **系统集成**：作为 Kettle + DolphinScheduler 的前置预处理层

**可量化成果**：

- 节省 **90% 以上**人工转换时间
- 为 ETL 流程提供**干净、规范的数据源**

***

### 项目 5：企业级数据仓库基础平台搭建（技术验证）

**技术栈**：Hadoop 3.3.6 + Hive 3.1.3 + Spark 3.5.0 + ZooKeeper 3.8.0 + MySQL 5.7

**项目状态**：✅ **非生产级别验证通过**（本地虚拟机环境）

**解决的业务痛点**：
- 中小企业数据孤岛严重，缺乏统一数据基础设施
- 分析滞后，无法支撑实时决策
- 运维成本高，扩展路径不清晰

**核心技术亮点**：
- **从 0 到 1 搭建**：独立负责集群架构设计、组件选型、环境搭建、性能调优
- **架构演进**：从 3 节点（资源受限）→ 2 节点精简高可用架构
- **Hive on Spark**：替代 MapReduce，迭代计算性能提升 10-100 倍
- **典型问题攻克**：解决内存不足、跨用户权限、网络隔离、依赖冲突等 10+ 技术难点

**可量化成果**：
- 完成 **HDFS + YARN + Hive + Spark** 全链路集成验证
- 建立**标准化运维 SOP**（启停流程、健康检查、故障排查决策树）
- **验证环境**：2 节点虚拟机，8.7GB 内存 / 4 核 / 50GB 存储
- **扩展路径**：已验证架构可行性，具备向生产环境扩展的技术基础

***

## 四、技术能力树

```text
                        🌳 数据工程师能力树
                               │
        ┌──────────────────────┼──────────────────────┐
        │                      │                      │
   📦 编程语言            ⚙️ 数据工程            🖥️ 运维部署
        │                      │                      │
   ┌────┼────┐          ┌──────┼──────┐          ┌────┼────┐
   │    │    │          │      │      │          │    │    │
 Python VBA  SQL      ETL开发 任务调度 数据仓库   Docker Linux Windows
   │    │    │          │      │      │          │    │    │
   │    │    │          │      │      │          │    │    │
 ┌─┴─┐ ┌┴┐ ┌┴┐      ┌───┴──┐ ┌┴┐   ┌┴┐       ┌┴┐  ┌┴┐  ┌┴┐
 │   │ │ │ │ │      │      │ │ │   │ │       │ │  │ │  │ │
Pandas PyQt5 MySQL Kettle  DS  Hive Docker Shell BAT
NumPy GUI    SQL   PDI    调度  数仓 Compose脚本
openpyxl 开发   优化   数据   工作  HDFS      性能 服务
PyInstaller    清洗   流编排 分布式      调优 管理
打包           转换
               参数化

        ┌──────────────────────┬──────────────────────┐
        │                      │                      │
   🔥 大数据生态            📊 数据可视化
        │                      │
   ┌────┼────┐             ┌───┴───┐
   │    │    │             │       │
 Hadoop Spark ZooKeeper  Excel图表 数据分析
   │    │    │             │       │
   │    │    │             │       │
 HDFS Spark SQL 分布式    趋势图   容量保持率
YARN 内存计算  协调       自动化   能量效率
     优化                 报表    电压变化
```

### 能力树详解

| 能力分支 | 核心技能 | 熟练度 | 典型应用场景 |
|---------|---------|--------|-------------|
| **Python 数据科学** | Pandas, NumPy, openpyxl, PyQt5, PyInstaller | ⭐⭐⭐⭐⭐ | 电池数据匹配工具、Excel批量处理工具 |
| **VBA 自动化** | Excel宏, ADO数据库接口, 图表生成 | ⭐⭐⭐⭐⭐ | 电池循环报告系统 |
| **SQL 与数据库** | MySQL, Hive SQL, 查询优化 | ⭐⭐⭐⭐⭐ | 所有项目的数据持久化 |
| **ETL 开发** | Kettle PDI, 数据清洗, 参数化设计 | ⭐⭐⭐⭐⭐ | ETL数据集成平台 |
| **任务调度** | DolphinScheduler, Shell脚本, 工作流编排 | ⭐⭐⭐⭐⭐ | ETL定时调度、跨机器部署 |
| **数据仓库** | Hive数仓设计, HDFS, 维度建模 | ⭐⭐⭐⭐☆ | 企业级数仓平台搭建 |
| **大数据生态** | Hadoop, Spark, YARN, ZooKeeper | ⭐⭐⭐⭐☆ | 分布式计算与存储 |
| **容器化部署** | Docker, Docker Compose | ⭐⭐⭐⭐☆ | ETL平台容器化分发 |
| **Linux 运维** | 集群搭建, Shell脚本, 性能调优 | ⭐⭐⭐⭐☆ | 数据仓库平台运维 |
| **数据可视化** | Excel图表, 趋势分析, 自动化报表 | ⭐⭐⭐⭐⭐ | 电池循环分析报告 |

***

## 五、技能矩阵

| 技能领域            | 具体技能                      | 熟练度   | 项目应用                      |
| --------------- | ------------------------- | ----- | ------------------------- |
| **Python 数据科学** | Pandas, NumPy, openpyxl   | ⭐⭐⭐⭐⭐ | BatteryMatcher, Excel批量工具 |
| **GUI 开发**      | PyQt5, QThread, 信号槽       | ⭐⭐⭐⭐⭐ | BatteryMatcher V3.0       |
| **ETL 工具**      | Kettle (PDI-CE), 参数化      | ⭐⭐⭐⭐⭐ | ETL-Kettle-DOL平台          |
| **任务调度**        | DolphinScheduler, Shell   | ⭐⭐⭐⭐⭐ | ETL调度平台                   |
| **大数据生态**       | Hadoop, Hive, Spark, YARN | ⭐⭐⭐⭐☆ | 数据仓库平台                    |
| **数据库**         | MySQL, SQL优化, ADO         | ⭐⭐⭐⭐⭐ | 所有项目                      |
| **容器化**         | Docker, Docker Compose    | ⭐⭐⭐⭐☆ | ETL平台部署                   |
| **VBA 自动化**     | Excel宏, 图表生成              | ⭐⭐⭐⭐⭐ | 电池循环报告系统                  |
| **Linux 运维**    | 集群搭建, Shell, 调优           | ⭐⭐⭐⭐☆ | 数据仓库平台                    |
| **数据可视化**       | 趋势图, 报表设计                 | ⭐⭐⭐⭐⭐ | VBA报告系统                   |

***

## 六、业务领域专长

**新能源电池行业数据治理**

- 熟悉电池充放电测试数据结构和业务含义
- 理解循环层、记录层、工步层数据关系
- 掌握容量保持率、能量效率、库伦效率等核心指标计算
- 具备从原始测试数据到分析报告的全链路处理能力

***

## 七、联系方式

- **GitHub/Gitee**: [da-qing-oh](https://gitee.com/da-qing-oh)
- **邮箱**: \[lmq0205a\@163.com]
- **微信**: \[MQ20210205A]

***

> **欢迎查阅！** 期待在数据工程领域持续深耕，为企业数字化转型创造价值。