# data-hub **Repository Path**: caigxx/data-hub ## Basic Information - **Project Name**: data-hub - **Description**: Data-hub 一款构建在flink 和spark之上的高效数据ETL工具,旨在减少对spark,flink的学习和开发成本 - **Primary Language**: Java - **License**: Apache-2.0 - **Default Branch**: v1.02 - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 1 - **Created**: 2021-03-24 - **Last Updated**: 2021-04-30 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # data-hub #### 介绍 Data-hub 一款构建在flink 和spark之上的高效数据ETL工具,旨在减少对spark,flink的学习和开发成本,默认支持flink SQL官方原生语法解析,spark官方SQL原生语法解析 #### 软件架构 软件架构说明 #### 安装教程 1. 安装flink或者spark,flink版本为1.12.1,kerberos环境下需要在flink-conf.yaml配置如下参数 \ security.kerberos.login.use-ticket-cache: true \ security.kerberos.login.keytab: /home/apex/apex.keytab \ security.kerberos.login.principal: apex@APEX.COM \ security.kerberos.login.contexts: Client,KafkaClient \ 2. spark(2.4.5)版本参照官方安装配置即可使用. 3. 下载并解压data-hub.zip文件目录如下 \ ├── bin \ │   ├── flink-engine-start.sh \ │   └── spark-engine-start.sh \ ├── config \ │   ├── config-env.sh \ │   ├── example \ │   │   ├── config-flink-jdbcsource.json \ │   │   ├── config-flink-kafkasource.json \ │   │   ├── config-flink-sql.json \ │   │   ├── config-spark-clickhousesink.json \ │   │   ├── config-spark-elasicsink.json \ │   │   ├── config-spark-elasicsource.json \ │   │   ├── config-spark-filesink.json \ │   │   ├── config-spark-grok.json \ │   │   ├── config-spark-hbasesink.json \ │   │   ├── config-spark-hbasesource.json \ │   │   ├── config-spark-jdbc.json \ │   │   ├── config-spark-jdbcsink.json \ │   │   ├── flink_basic.json \ │   │   ├── spark_basic.json \ │   │   └── syslog.json \ │   ├── patterns \ │   │   ├── firewalls \ │   │   ├── grok-patterns \ │   │   ├── haproxy \ │   │   ├── java \ │   │   ├── linux-syslog \ │   │   ├── mcollective \ │   │   ├── mongodb \ │   │   ├── nagios \ │   │   ├── postfix \ │   │   ├── postgresql \ │   │   ├── redis \ │   │   ├── ruby \ │   │   └── ubuntu_syslog \ │   └── sql \ │   ├── flink \ │   │   ├── example01.sql \ │   │   ├── example02.sql \ │   │   └── example-flink.sql \ │   └── spark \ │   └── example-spark.sql \ └── lib \ └── core-1.0-release-shaded.jar #### 使用说明 1. 配置样例中的类似的json文件 2. 执行flink命令如下: \ ./flink-engine-start.sh --config /home/apex/data-hub/config/example/config-flink-sql.json \ -m yarn-cluster -ys 6 -yjm 1024 -ytm 1024 \ -yD security.kerberos.login.keytab=/home/apex/apex.keytab \ -yD security.kerberos.login.principal=apex@APEX.COM 3. 执行spark命令如下: \ ./spark-engine-start.sh --config /home/apex/data-hub/config/example/config-spark-sql.json \ --driver-memory 1g \ --master yarn \ 参数可以类似flink添加其后 4. 打包命令如下:\ mvn clean package -Dmaven.test.skip=true 5. 使用说明:\ 参考项目中的doc文档