登录
注册
开源
企业版
高校版
搜索
帮助中心
使用条款
关于我们
开源
企业版
高校版
私有云
模力方舟
AI 队友
登录
注册
轻量养虾,开箱即用!低 Token + 稳定算力,Gitee & 模力方舟联合出品的 PocketClaw 正式开售!点击了解详情~
代码拉取完成,页面将自动刷新
开源项目
>
数据库相关
>
数据库服务
&&
捐赠
捐赠前请先登录
取消
前往登录
扫描微信二维码支付
取消
支付完成
支付提示
将跳转至支付宝完成支付
确定
取消
Watch
不关注
关注所有动态
仅关注版本发行动态
关注但不提醒动态
443
Star
1.5K
Fork
1.8K
openGauss
/
openGauss-server
代码
Issues
982
Pull Requests
153
Wiki
统计
流水线
服务
质量分析
Jenkins for Gitee
腾讯云托管
腾讯云 Serverless
悬镜安全
阿里云 SAE
Codeblitz
SBOM
开发画像分析
我知道了,不再自动展开
更新失败,请稍后重试!
移除标识
内容风险标识
本任务被
标识为内容中包含有代码安全 Bug 、隐私泄露等敏感信息,仓库外成员不可访问
DCF模式Primary节点无法正常降级为Standby节点
待办的
#I8H1YQ
需求
huanghj78
创建于
2023-11-16 16:53
<!-- #请认真填写以下信息,否则可能由于无法定位,导致issue无法解决而被取消 --> 【标题描述】:DCF模式中,Primary节点收到Standby节点的Append Log Ack消息时,当Append Log Ack消息中的follower_term大于当前Primary节点的Term值时,Primary节点触发降级,但没有最终没有成功降级为Standby,而是整个进程退出。经查看源码发现在opengauss中处理降级请求是直接让整个进程退出,想知道原因是什么? 【测试类型:SQL功能/存储功能/接口功能/工具功能/性能/并发/压力长稳/故障注入/安全/资料/编码规范】【测试版本:x.x.x】 问题描述 【操作系统和硬件信息】(查询命令: cat /etc/system-release, uname -a): openEuler release 22.03 LTS Linux 3adf3c2c795d 4.15.0-194-generic #205-Ubuntu SMP Fri Sep 16 19:49:27 UTC 2022 x86_64 x86_64 x86_64 GNU/Linux 【测试环境】(单机/1主x备x级联备): 1主2备 【被测功能】: DCF 【测试类型】: 【数据库版本】(查询命令: gaussdb -V): gaussdb (openGauss 5.0.0 build ) compiled at 2023-04-06 15:35:14 commit 0 last mr debug 【预置条件】: 【操作步骤】(请填写详细的操作步骤): 插桩DCF源码rep_leader.c,修改其中的ack.follower_term // leader process follower's ack message static status_t rep_appendlog_ack_proc(mec_message_t *pack) { uint32 stream_id = pack->head->stream_id; uint32 node_id = pack->head->src_inst; rep_apendlog_ack_t ack; if (rep_decode_appendlog_ack(pack, &ack) != CM_SUCCESS) { LOG_DEBUG_ERR("[REP]rep_decode_appendlog_ack failed."); return CM_ERROR; } // 在此修改ack.follower_term .... } 【预期输出】: Primary节点降级,触发新一轮选举 【实际输出】: Primary节点退出 【原因分析】: 1. 这个问题的根因 opengauss源码处理降级请求逻辑 /* * process demote request from standby */ static void ProcessDemoteRequest(void) { DemoteMode mode; /* The temperary solution is to exit Gauss when demoting happened in DCF mode */ if (g_instance.attr.attr_storage.dcf_attr.enable_dcf) { /* Don't free share memory */ ereport(LOG, (errmsg("Exit postmaster when demoting."))); HandleChildCrash(t_thrd.proc_cxt.MyProcPid, 1, t_thrd.proc_cxt.MyProgName); } .... } 2. 问题推断过程 3. 还有哪些原因可能造成类似现象 4. 该问题是否有临时规避措施 5. 问题解决方案 6. 预计修复问题时间 【日志信息】(请附上日志文件、截图、coredump信息): opengauss/dcf_log/debug/dcf.dlog: UTC+8 2023-11-16 16:34:14.262|DCF|34616|ERROR>[ELC]LEADER receive one's term larger than itself, demote to FOLLOWER --------------------- opengauss/data/pg_log/postgresql-2023-11-16_160014.log: 2023-11-16 16:34:14.276 [unknown] [unknown] localhost 140377063351872 0[0:0#0] 0 [BACKEND] LOG: Enter DemoteCallbackFunc, isDcfShmemInited = 1 2023-11-16 16:34:14.276 [unknown] [unknown] localhost 140377063351872 0[0:0#0] 0 [BACKEND] LOG: Exit DemoteCallbackFunc, isDcfShmemInited = 1 2023-11-16 16:34:14.276 [unknown] [unknown] localhost 140382452831680 0[0:0#0] 0 [BACKEND] LOG: Exit postmaster when demoting. 2023-11-16 16:34:14.277 [postmaster][reaper][140382452831680] LOG: gaussmaster (ThreadId 140382452831680) exited with exit code 0Failed process was running: (null) 2023-11-16 16:34:14.277 [postmaster][reaper][140382452831680] LOG: terminating any other active server processes 2023-11-16 16:34:14.277 [postmaster][reaper][140382452831680] LOG: gaussmaster (ThreadId 140382452831680) exited with exit code 0 2023-11-16 16:34:14.277 [postmaster][reaper][140382452831680] LOG: the server process exits 【测试代码】:
<!-- #请认真填写以下信息,否则可能由于无法定位,导致issue无法解决而被取消 --> 【标题描述】:DCF模式中,Primary节点收到Standby节点的Append Log Ack消息时,当Append Log Ack消息中的follower_term大于当前Primary节点的Term值时,Primary节点触发降级,但没有最终没有成功降级为Standby,而是整个进程退出。经查看源码发现在opengauss中处理降级请求是直接让整个进程退出,想知道原因是什么? 【测试类型:SQL功能/存储功能/接口功能/工具功能/性能/并发/压力长稳/故障注入/安全/资料/编码规范】【测试版本:x.x.x】 问题描述 【操作系统和硬件信息】(查询命令: cat /etc/system-release, uname -a): openEuler release 22.03 LTS Linux 3adf3c2c795d 4.15.0-194-generic #205-Ubuntu SMP Fri Sep 16 19:49:27 UTC 2022 x86_64 x86_64 x86_64 GNU/Linux 【测试环境】(单机/1主x备x级联备): 1主2备 【被测功能】: DCF 【测试类型】: 【数据库版本】(查询命令: gaussdb -V): gaussdb (openGauss 5.0.0 build ) compiled at 2023-04-06 15:35:14 commit 0 last mr debug 【预置条件】: 【操作步骤】(请填写详细的操作步骤): 插桩DCF源码rep_leader.c,修改其中的ack.follower_term // leader process follower's ack message static status_t rep_appendlog_ack_proc(mec_message_t *pack) { uint32 stream_id = pack->head->stream_id; uint32 node_id = pack->head->src_inst; rep_apendlog_ack_t ack; if (rep_decode_appendlog_ack(pack, &ack) != CM_SUCCESS) { LOG_DEBUG_ERR("[REP]rep_decode_appendlog_ack failed."); return CM_ERROR; } // 在此修改ack.follower_term .... } 【预期输出】: Primary节点降级,触发新一轮选举 【实际输出】: Primary节点退出 【原因分析】: 1. 这个问题的根因 opengauss源码处理降级请求逻辑 /* * process demote request from standby */ static void ProcessDemoteRequest(void) { DemoteMode mode; /* The temperary solution is to exit Gauss when demoting happened in DCF mode */ if (g_instance.attr.attr_storage.dcf_attr.enable_dcf) { /* Don't free share memory */ ereport(LOG, (errmsg("Exit postmaster when demoting."))); HandleChildCrash(t_thrd.proc_cxt.MyProcPid, 1, t_thrd.proc_cxt.MyProgName); } .... } 2. 问题推断过程 3. 还有哪些原因可能造成类似现象 4. 该问题是否有临时规避措施 5. 问题解决方案 6. 预计修复问题时间 【日志信息】(请附上日志文件、截图、coredump信息): opengauss/dcf_log/debug/dcf.dlog: UTC+8 2023-11-16 16:34:14.262|DCF|34616|ERROR>[ELC]LEADER receive one's term larger than itself, demote to FOLLOWER --------------------- opengauss/data/pg_log/postgresql-2023-11-16_160014.log: 2023-11-16 16:34:14.276 [unknown] [unknown] localhost 140377063351872 0[0:0#0] 0 [BACKEND] LOG: Enter DemoteCallbackFunc, isDcfShmemInited = 1 2023-11-16 16:34:14.276 [unknown] [unknown] localhost 140377063351872 0[0:0#0] 0 [BACKEND] LOG: Exit DemoteCallbackFunc, isDcfShmemInited = 1 2023-11-16 16:34:14.276 [unknown] [unknown] localhost 140382452831680 0[0:0#0] 0 [BACKEND] LOG: Exit postmaster when demoting. 2023-11-16 16:34:14.277 [postmaster][reaper][140382452831680] LOG: gaussmaster (ThreadId 140382452831680) exited with exit code 0Failed process was running: (null) 2023-11-16 16:34:14.277 [postmaster][reaper][140382452831680] LOG: terminating any other active server processes 2023-11-16 16:34:14.277 [postmaster][reaper][140382452831680] LOG: gaussmaster (ThreadId 140382452831680) exited with exit code 0 2023-11-16 16:34:14.277 [postmaster][reaper][140382452831680] LOG: the server process exits 【测试代码】:
评论 (
3
)
登录
后才可以发表评论
状态
待办的
设计中
修复中
方案设计
待办的
需求分析
需求认领
需求评议
需求接纳
已拒绝
已完成
已验收
资料验收
已确认
挂起
负责人
未设置
薛蒙恩
xue_meng_en
负责人
协作者
+负责人
+协作者
周斌
justbk
负责人
协作者
+负责人
+协作者
标签
未设置
项目
未立项任务
未立项任务
里程碑
未关联里程碑
未关联里程碑
Pull Requests
未关联
未关联
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
未关联
分支 (
-
)
标签 (
-
)
开始日期   -   截止日期
-
置顶选项
不置顶
置顶等级:高
置顶等级:中
置顶等级:低
优先级
不指定
严重
主要
次要
不重要
预计工期
(小时)
参与者(4)
C++
1
https://gitee.com/opengauss/openGauss-server.git
git@gitee.com:opengauss/openGauss-server.git
opengauss
openGauss-server
openGauss-server
点此查找更多帮助
搜索帮助
Git 命令在线学习
如何在 Gitee 导入 GitHub 仓库
Git 仓库基础操作
企业版和社区版功能对比
SSH 公钥设置
如何处理代码冲突
仓库体积过大,如何减小?
如何找回被删除的仓库数据
Gitee 产品配额说明
GitHub仓库快速导入Gitee及同步更新
什么是 Release(发行版)
将 PHP 项目自动发布到 packagist.org
仓库举报
回到顶部
登录提示
该操作需登录 Gitee 帐号,请先登录后再操作。
立即登录
没有帐号,去注册