登录
注册
开源
企业版
高校版
搜索
帮助中心
使用条款
关于我们
开源
企业版
高校版
私有云
模力方舟
AI 队友
登录
注册
11月29日 Gitee Talk | 模力方舟 AI 沙龙深圳站:看懂算力到应用的下一个主战场!点击立即报名~
代码拉取完成,页面将自动刷新
开源项目
>
数据库相关
>
数据库服务
&&
捐赠
捐赠前请先登录
取消
前往登录
扫描微信二维码支付
取消
支付完成
支付提示
将跳转至支付宝完成支付
确定
取消
Watch
不关注
关注所有动态
仅关注版本发行动态
关注但不提醒动态
443
Star
1.5K
Fork
1.8K
openGauss
/
openGauss-server
代码
Issues
977
Pull Requests
166
Wiki
统计
流水线
服务
质量分析
Jenkins for Gitee
腾讯云托管
腾讯云 Serverless
悬镜安全
阿里云 SAE
Codeblitz
SBOM
我知道了,不再自动展开
更新失败,请稍后重试!
移除标识
内容风险标识
本任务被
标识为内容中包含有代码安全 Bug 、隐私泄露等敏感信息,仓库外成员不可访问
DCF模式,在主节点上执行写操作时,若Req消息丢失或延迟,客户端会阻塞,手动终止之后操作仅在本地生效
待办的
#I8I19W
缺陷
huanghj78
创建于
2023-11-20 22:20
<!-- #请认真填写以下信息,否则可能由于无法定位,导致issue无法解决而被取消 --> 【标题描述】: DCF模式,在主节点上执行写操作时,若Req消息丢失或延迟,主节点会一直阻塞等待从节点的Ack消息,没有超时机制。 当手动(Ctrl-C)停止写操作时,写操作会在本地生效,导致系统不一致。此后主节点无法再写入,因为状态不一致。故整个系统已不可写。 【测试类型:SQL功能/存储功能/接口功能/工具功能/性能/并发/压力长稳/故障注入/安全/资料/编码规范】【测试版本:x.x.x】 问题描述 【操作系统和硬件信息】(查询命令: cat /etc/system-release, uname -a): openEuler release 22.03 LTS Linux 3adf3c2c795d 4.15.0-194-generic #205-Ubuntu SMP Fri Sep 16 19:49:27 UTC 2022 x86_64 x86_64 x86_64 GNU/Linux 【测试环境】(单机/1主x备x级联备): 1主2备 【被测功能】: 【测试类型】: 【数据库版本】(查询命令: gaussdb -V): gaussdb (openGauss 5.0.0 build ) compiled at 2023-04-06 15:35:14 commit 0 last mr debug 【预置条件】: 【操作步骤】(请填写详细的操作步骤): 插桩DCF源码rep_leader.c的rep_appendlog_node函数,使其提前返回或插入延迟函数,模拟消息丢失或延迟。 static status_t rep_appendlog_node(uint32 stream_id, uint32 node_id, dcf_role_t default_role, uint64 last_log_index, bool8* node_exists_log) { uint64 old_next_index = (uint64)cm_atomic_get((atomic_t*)&NEXT_INDEX); uint64 log_begin = old_next_index == CM_INVALID_INDEX_ID ? 1 : old_next_index; log_begin = MAX(log_begin, stg_first_index(stream_id)); uint64 log_count = rep_calu_log_count(stream_id, node_id, default_role, log_begin, last_log_index); *node_exists_log = (log_count > 0); /* Logs are sent even if log_count==0. Periodically sending empty logs ensures that lost packets are retransmitted */ mec_message_t pack; CM_RETURN_IFERR(mec_alloc_pack(&pack, MEC_CMD_APPEND_LOG_RPC_REQ, g_cur_node_id, node_id, stream_id)); uint64 pre_log_index = log_begin == CM_INVALID_INDEX_ID ? CM_INVALID_INDEX_ID : log_begin - 1; rep_apendlog_req_t appendlog_req; rep_init_appendlog_head(stream_id, &appendlog_req, pre_log_index, last_log_index); CM_RETURN_IFERR_EX(rep_encode_appendlog_head(&pack, &appendlog_req), mec_release_pack(&pack)); uint32 log_count_pos = mec_get_write_pos(&pack) - sizeof(uint64); uint64 j = 0; uint32 total_size = 0; for (uint64 index = log_begin; j < log_count; index++, j++) { log_entry_t* entry = stg_get_entry(stream_id, index); if (entry == NULL) { break; } total_size += (sizeof(rep_log_t) + ENTRY_SIZE(entry)); if (total_size > MESSAGE_BUFFER_SIZE && j > 0) { LOG_DEBUG_INF("[REP]total_size[%u] is enough, send size[%u]. log_count[%llu], j[%llu]", total_size, (uint32)(total_size - (sizeof(rep_log_t) + ENTRY_SIZE(entry))), log_count, j); stg_entry_dec_ref(entry); break; } status_t ret = rep_encode_one_log(&pack, log_count_pos, j + 1, entry); stg_entry_dec_ref(entry); if (ret != CM_SUCCESS) { mec_release_pack(&pack); LOG_DEBUG_ERR("[REP]encode_one_log fail, index=%llu, j=%llu", index, j); return CM_ERROR; } ps_record1(PS_PACK, index); } appendlog_req.log_count = j; // 在此提前返回或插入延迟函数 【预期输出】: 主节点的写操作超时后返回错误,系统仍保持一致。 【实际输出】: 主节点一直阻塞等待系统达成一致,没有超时机制。手动停止写操作之后,写操作在主节点本地生效,导致系统不一致。 【原因分析】: 1. 这个问题的根因 DCF同步没有超时机制 2. 问题推断过程 3. 还有哪些原因可能造成类似现象 4. 该问题是否有临时规避措施 5. 问题解决方案 6. 预计修复问题时间 【日志信息】(请附上日志文件、截图、coredump信息):  【测试代码】:
<!-- #请认真填写以下信息,否则可能由于无法定位,导致issue无法解决而被取消 --> 【标题描述】: DCF模式,在主节点上执行写操作时,若Req消息丢失或延迟,主节点会一直阻塞等待从节点的Ack消息,没有超时机制。 当手动(Ctrl-C)停止写操作时,写操作会在本地生效,导致系统不一致。此后主节点无法再写入,因为状态不一致。故整个系统已不可写。 【测试类型:SQL功能/存储功能/接口功能/工具功能/性能/并发/压力长稳/故障注入/安全/资料/编码规范】【测试版本:x.x.x】 问题描述 【操作系统和硬件信息】(查询命令: cat /etc/system-release, uname -a): openEuler release 22.03 LTS Linux 3adf3c2c795d 4.15.0-194-generic #205-Ubuntu SMP Fri Sep 16 19:49:27 UTC 2022 x86_64 x86_64 x86_64 GNU/Linux 【测试环境】(单机/1主x备x级联备): 1主2备 【被测功能】: 【测试类型】: 【数据库版本】(查询命令: gaussdb -V): gaussdb (openGauss 5.0.0 build ) compiled at 2023-04-06 15:35:14 commit 0 last mr debug 【预置条件】: 【操作步骤】(请填写详细的操作步骤): 插桩DCF源码rep_leader.c的rep_appendlog_node函数,使其提前返回或插入延迟函数,模拟消息丢失或延迟。 static status_t rep_appendlog_node(uint32 stream_id, uint32 node_id, dcf_role_t default_role, uint64 last_log_index, bool8* node_exists_log) { uint64 old_next_index = (uint64)cm_atomic_get((atomic_t*)&NEXT_INDEX); uint64 log_begin = old_next_index == CM_INVALID_INDEX_ID ? 1 : old_next_index; log_begin = MAX(log_begin, stg_first_index(stream_id)); uint64 log_count = rep_calu_log_count(stream_id, node_id, default_role, log_begin, last_log_index); *node_exists_log = (log_count > 0); /* Logs are sent even if log_count==0. Periodically sending empty logs ensures that lost packets are retransmitted */ mec_message_t pack; CM_RETURN_IFERR(mec_alloc_pack(&pack, MEC_CMD_APPEND_LOG_RPC_REQ, g_cur_node_id, node_id, stream_id)); uint64 pre_log_index = log_begin == CM_INVALID_INDEX_ID ? CM_INVALID_INDEX_ID : log_begin - 1; rep_apendlog_req_t appendlog_req; rep_init_appendlog_head(stream_id, &appendlog_req, pre_log_index, last_log_index); CM_RETURN_IFERR_EX(rep_encode_appendlog_head(&pack, &appendlog_req), mec_release_pack(&pack)); uint32 log_count_pos = mec_get_write_pos(&pack) - sizeof(uint64); uint64 j = 0; uint32 total_size = 0; for (uint64 index = log_begin; j < log_count; index++, j++) { log_entry_t* entry = stg_get_entry(stream_id, index); if (entry == NULL) { break; } total_size += (sizeof(rep_log_t) + ENTRY_SIZE(entry)); if (total_size > MESSAGE_BUFFER_SIZE && j > 0) { LOG_DEBUG_INF("[REP]total_size[%u] is enough, send size[%u]. log_count[%llu], j[%llu]", total_size, (uint32)(total_size - (sizeof(rep_log_t) + ENTRY_SIZE(entry))), log_count, j); stg_entry_dec_ref(entry); break; } status_t ret = rep_encode_one_log(&pack, log_count_pos, j + 1, entry); stg_entry_dec_ref(entry); if (ret != CM_SUCCESS) { mec_release_pack(&pack); LOG_DEBUG_ERR("[REP]encode_one_log fail, index=%llu, j=%llu", index, j); return CM_ERROR; } ps_record1(PS_PACK, index); } appendlog_req.log_count = j; // 在此提前返回或插入延迟函数 【预期输出】: 主节点的写操作超时后返回错误,系统仍保持一致。 【实际输出】: 主节点一直阻塞等待系统达成一致,没有超时机制。手动停止写操作之后,写操作在主节点本地生效,导致系统不一致。 【原因分析】: 1. 这个问题的根因 DCF同步没有超时机制 2. 问题推断过程 3. 还有哪些原因可能造成类似现象 4. 该问题是否有临时规避措施 5. 问题解决方案 6. 预计修复问题时间 【日志信息】(请附上日志文件、截图、coredump信息):  【测试代码】:
评论 (
5
)
登录
后才可以发表评论
状态
待办的
待办的
已确认
已答复
已取消
挂起
修复中
已完成
待回归
测试中
已验收
负责人
未设置
薛蒙恩
xue_meng_en
负责人
协作者
+负责人
+协作者
周斌
justbk
负责人
协作者
+负责人
+协作者
标签
未设置
项目
未立项任务
未立项任务
里程碑
未关联里程碑
未关联里程碑
Pull Requests
未关联
未关联
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
未关联
分支 (20)
标签 (30)
master
5.0.0
6.0.0
datavec_poc
tp_poc
7.0.0-RC2
7.0.0-RC1
master_bak08271930
bugfix_0725
3.0.0
iud_dev
dev_board
5.1.0
kms
2.0.0
3.1.0
2.1.0
1.1.0
1.0.1
1.0.0
v7.0.0-RC2
v6.0.2
v7.0.0-RC1
v6.0.1
v3.0.6
v6.0.0
v3.0.5B009
v5.0.3
v5.0.2
v6.0.0-RC1
v3.0.5
v5.0.1
v5.1.0
5.1.0
v5.0.0
v3.0.3
v3.1.1
v3.0.2
v3.1.0
v2.0.5
v3.0.1
v2.0.4
v2.0.3
v3.0.0
v2.1.0
v2.0.1
v2.0.0
v1.1.0
v1.0.1
v1.0.0
开始日期   -   截止日期
-
置顶选项
不置顶
置顶等级:高
置顶等级:中
置顶等级:低
优先级
不指定
严重
主要
次要
不重要
预计工期
(小时)
参与者(2)
C++
1
https://gitee.com/opengauss/openGauss-server.git
git@gitee.com:opengauss/openGauss-server.git
opengauss
openGauss-server
openGauss-server
点此查找更多帮助
搜索帮助
Git 命令在线学习
如何在 Gitee 导入 GitHub 仓库
Git 仓库基础操作
企业版和社区版功能对比
SSH 公钥设置
如何处理代码冲突
仓库体积过大,如何减小?
如何找回被删除的仓库数据
Gitee 产品配额说明
GitHub仓库快速导入Gitee及同步更新
什么是 Release(发行版)
将 PHP 项目自动发布到 packagist.org
仓库举报
回到顶部
登录提示
该操作需登录 Gitee 帐号,请先登录后再操作。
立即登录
没有帐号,去注册