# chunjun **Repository Path**: dtstack_dev_0/chunjun ## Basic Information - **Project Name**: chunjun - **Description**: 基于flink的分布式数据同步框架 - **Primary Language**: Java - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: Yes ## Statistics - **Stars**: 567 - **Forks**: 254 - **Created**: 2021-04-12 - **Last Updated**: 2026-03-04 ## Categories & Tags **Categories**: big-data **Tags**: Java, flink ## README # ChunJun

license master coverage

[![EN doc](https://img.shields.io/badge/document-English-blue.svg)](README.md) [![CN doc](https://img.shields.io/badge/文档-中文版-blue.svg)](README_CH.md) ## 介绍纯钧（ChunJun，原名FlinkX），是一款稳定、易用、高效、批流一体的数据集成框架，目前基于实时计算引擎Flink实现多种异构数据源之间的数据同步与计算，已在上千家公司部署且稳定运行。官方网站：https://dtstack.github.io/chunjun/ ## 特性纯钧（ChunJun）将不同的数据库抽象成了reader/source 插件，writer/sink 插件和lookup 维表插件，其具有以下特点： - 基于实时计算引擎Flink，支持JSON模版配置任务，兼容Flink SQL语法； - 支持分布式运行，支持flink-standalone、yarn-session、yarn-per job等多种提交方式； - 支持Docker一键部署，支持K8S 部署运行； - 支持多种异构数据源，可支持MySQL、Oracle、SQLServer、Hive、Kudu等20多种数据源的同步与计算； - 易拓展，高灵活性，新拓展的数据源插件可以与现有数据源插件即时互通，插件开发者不需要关心其他插件的代码逻辑； - 不仅仅支持全量同步，还支持增量同步、间隔轮训； - 批流一体，不仅仅支持离线同步及计算，还兼容实时场景； - 支持脏数据存储，并提供指标监控等； - 配合checkpoint实现断点续传； - 不仅仅支持同步DML数据，还支持Schema变更同步； ## 源码编译 ### 获取代码使用git工具将纯钧项目代码下载在本地 ```shell git clone https://github.com/DTStack/chunjun.git ``` ### 项目编译在项目源码目录下执行 ```shell ./mvnw clean package -DskipTests ``` 或者执行 ```shell sh build/build.sh ``` ### 多平台兼容 chunjun目前支持tdh和开源hadoop平台，对不同的平台有需要使用不同的maven命令打包 | 平台类型 | | 含义 | | -------- | -------------------------------------------- | --------------------------------------- | | tdh | mvn clean package -DskipTests -P default,tdh | 打包出inceptor插件以及default支持的插件 | | default | mvn clean package -DskipTests -P default | 除了inceptor插件之外的所有插件 | ### 常见问题 #### 1.编译找不到DB2、达梦、Gbase、Ojdbc8等驱动包解决办法：在$CHUNJUN_HOME/jars目录下有这些驱动包，可以手动安装，也可以使用插件提供的脚本安装： ```bash ## windows平台 ./$CHUNJUN_HOME/bin/install_jars.bat ## unix平台 ./$CHUNJUN_HOME/bin/install_jars.sh ``` #### 2. 关于编译ChunJun-core报错Failed to read artifact descriptor for com.google.errorprone:javac-shaded 报错信息： ```java [ERROR]Failed to execute goal com.diffplug.spotless:spotless-maven-plugin:2.4.2:check(spotless-check)on project chunjun-core: Execution spotless-check of goal com.diffplug.spotless:spotless-maven-plugin:2.4.2:check failed:Unable to resolve dependencies: Failed to collect dependencies at com.google.googlejavaformat:google-java-format:jar:1.7->com.google.errorprone:javac-shaded:jar:9+181-r4173-1: Failed to read artifact descriptor for com.google.errorprone:javac-shaded:jar:9+181-r4173-1:Could not transfer artifact com.google.errorprone:javac-shaded:pom:9+181-r4173-1 from/to aliyunmaven(https://maven.aliyun.com/repository/public): Access denied to:https://maven.aliyun.com/repository/public/com/google/errorprone/javac-shaded/9+181-r4173-1/javac-shaded-9+181-r4173-1.pom -> [Help 1] ``` 解决： https://repo1.maven.org/maven2/com/google/errorprone/javac-shaded/9+181-r4173-1/javac-shaded-9+181-r4173-1.jar 从这个地址下载javac-shaded-9+181-r4173-1.jar，临时放到chunjun根目录下jars目录里，然后在源码根目录下执行安装依赖包命令如下： ```shell mvn install:install-file -DgroupId=com.google.errorprone -DartifactId=javac-shaded -Dversion=9+181-r4173-1 -Dpackaging=jar -Dfile=./jars/javac-shaded-9+181-r4173-1.jar ``` ## 快速开始以下表格是分支与flink版本之间的对应关系，如果版本没有对齐，可能会导致任务出现序列化异常，类冲突等问题。 | 分支 | flink 版本 | | ------------ | ---------- | | master | 1.12.7 | | 1.12_release | 1.12.7 | | 1.10_release | 1.10.1 | | 1.8_release | 1.8.3 | 纯钧支持多种模式运行任务，不同模式下，所依赖的环境和步骤有所不同，以下内容是不同模式下的提交步骤： ### Local Local 模式不依赖Flink环境和Hadoop环境，在本地环境启动一个JVM进程执行纯钧任务。 #### 提交步骤进入到chunjun-dist 目录，执行命令 ```shell sh bin/chunjun-local.sh -job chunjun-examples/json/stream/stream.json ``` 即可执行一个简单的 **stream -> stream** 同步任务注意: ``` 如果你是在windows环境下打包，在linux上运行任务前需要执行 sed -i "s/\r//g" bin/*.sh 命令修复sh脚本中的 '\r' 问题。 ``` [参考视频](https://www.bilibili.com/video/BV1mT411g7fJ?spm_id_from=333.999.0.0) ### Standalone Standalone模式依赖Flink Standalone环境，不依赖Hadoop环境。 #### 提交步骤 ##### 1. 添加chunjun依赖包 1) 根据实际情况找到依赖文件: 通过maven编译的方式构建项目时，依赖文件目录为'chunjun-dist'; 通过官网下载压缩包解压使用时，依赖文件目录为解压后的目录，例如'chunjun-assembly-${revision}-chunjun-dist' 2) 将依赖文件复制到Flink lib目录下,例如 ```shell cp -r chunjun-dist $FLINK_HOME/lib ``` 注意: 这个复制操作需要在所有Flink cluster机器上执行，否则部分任务会出现类找不到的错误。 ##### 2. 启动Flink Standalone环境 ```shell sh $FLINK_HOME/bin/start-cluster.sh ``` 启动成功后默认端口为8081，我们可以访问当前机器的8081端口进入standalone的flink web ui ##### 3. 提交任务进入到本地chunjun-dist目录，执行命令 ```shell sh bin/chunjun-standalone.sh -job chunjun-examples/json/stream/stream.json ``` 提交成功之后，可以在flink web ui 上观察任务情况； [参考视频](https://www.bilibili.com/video/BV1TT41137UV?spm_id_from=333.999.0.0) ### Yarn Session YarnSession 模式依赖Flink 和 Hadoop 环境，需要在任务提交之前启动相应的yarn session； #### 提交步骤 ##### 1. 启动Yarn Session环境 Yarn Session 模式依赖Flink 和 Hadoop 环境，需要在提交机器中提前设置好$HADOOP_HOME和$FLINK_HOME 我们需要使用yarn-session -t参数上传chunjun-dist ```shell cd $FLINK_HOME/bin ./yarn-session -t $CHUNJUN_HOME -d ``` ##### 2. 提交任务通过yarn web ui 查看session 对应的application $SESSION_APPLICATION_ID，进入到本地chunjun-dist目录，执行命令 ```shell sh ./bin/chunjun-yarn-session.sh -job chunjun-examples/json/stream/stream.json -confProp {\"yarn.application.id\":\"SESSION_APPLICATION_ID\"} ``` yarn.application.id 也可以在 flink-conf.yaml 中设置；提交成功之后，可以通过 yarn web ui 上观察任务情况。 [参考视频](https://www.bilibili.com/video/BV1oU4y1D7e7?spm_id_from=333.999.0.0) ### Yarn Per-Job Yarn Per-Job 模式依赖Flink 和 Hadoop 环境，需要在提交机器中提前设置好$HADOOP_HOME和$FLINK_HOME。 #### 提交步骤 Yarn Per-Job 提交任务配置正确即可提交。进入本地chunjun-dist目录，执行命令提交任务。 ```shell sh ./bin/chunjun-yarn-perjob.sh -job chunjun-examples/json/stream/stream.json ``` 提交成功之后，可以通过 yarn web ui 上观察任务情况； ## 插件文档详情请访问：https://dtstack.github.io/chunjun/documents/ ## 贡献者感谢所有的贡献者！ contributors

## 开源协议纯钧遵循Apache 2.0 开源协议。