# data-hub

**Repository Path**: caigxx/data-hub

## Basic Information

- **Project Name**: data-hub
- **Description**: Data-hub 一款构建在flink 和spark之上的高效数据ETL工具,旨在减少对spark,flink的学习和开发成本
- **Primary Language**: Java
- **License**: Apache-2.0
- **Default Branch**: v1.02
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 1
- **Created**: 2021-03-24
- **Last Updated**: 2021-04-30

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# data-hub

#### 介绍
Data-hub 一款构建在flink 和spark之上的高效数据ETL工具,旨在减少对spark,flink的学习和开发成本,默认支持flink SQL官方原生语法解析,spark官方SQL原生语法解析

#### 软件架构
软件架构说明


#### 安装教程

1.  安装flink或者spark,flink版本为1.12.1,kerberos环境下需要在flink-conf.yaml配置如下参数 \
security.kerberos.login.use-ticket-cache: true \
security.kerberos.login.keytab: /home/apex/apex.keytab \
security.kerberos.login.principal: apex@APEX.COM \
security.kerberos.login.contexts: Client,KafkaClient \

2. spark(2.4.5)版本参照官方安装配置即可使用.

3.  下载并解压data-hub.zip文件目录如下 \
├── bin \
│   ├── flink-engine-start.sh \
│   └── spark-engine-start.sh \
├── config \
│   ├── config-env.sh \
│   ├── example \
│   │   ├── config-flink-jdbcsource.json \
│   │   ├── config-flink-kafkasource.json \
│   │   ├── config-flink-sql.json \
│   │   ├── config-spark-clickhousesink.json \
│   │   ├── config-spark-elasicsink.json \
│   │   ├── config-spark-elasicsource.json \
│   │   ├── config-spark-filesink.json \
│   │   ├── config-spark-grok.json \
│   │   ├── config-spark-hbasesink.json \
│   │   ├── config-spark-hbasesource.json \
│   │   ├── config-spark-jdbc.json \
│   │   ├── config-spark-jdbcsink.json \
│   │   ├── flink_basic.json \
│   │   ├── spark_basic.json \
│   │   └── syslog.json \
│   ├── patterns \
│   │   ├── firewalls \
│   │   ├── grok-patterns \
│   │   ├── haproxy \
│   │   ├── java \
│   │   ├── linux-syslog \
│   │   ├── mcollective \
│   │   ├── mongodb \
│   │   ├── nagios \
│   │   ├── postfix \
│   │   ├── postgresql \
│   │   ├── redis \
│   │   ├── ruby \
│   │   └── ubuntu_syslog \
│   └── sql \
│       ├── flink \
│       │   ├── example01.sql \
│       │   ├── example02.sql \
│       │   └── example-flink.sql \
│       └── spark \
│           └── example-spark.sql \
└── lib \
    └── core-1.0-release-shaded.jar

#### 使用说明

1.  配置样例中的类似的json文件
2.  执行flink命令如下: \
./flink-engine-start.sh --config /home/apex/data-hub/config/example/config-flink-sql.json \
-m yarn-cluster -ys 6 -yjm 1024 -ytm 1024 \
-yD security.kerberos.login.keytab=/home/apex/apex.keytab \
-yD security.kerberos.login.principal=apex@APEX.COM
3.  执行spark命令如下: \
./spark-engine-start.sh --config /home/apex/data-hub/config/example/config-spark-sql.json \
--driver-memory 1g \
--master yarn \
参数可以类似flink添加其后
4. 打包命令如下:\
mvn clean package -Dmaven.test.skip=true
5. 使用说明:\
参考项目中的doc文档