diff --git "a/Test_Strategy/openEuler_24.03_LTS_SP3/openEuler 24.03_LTS_SP3\347\211\210\346\234\254sysSentry\347\211\271\346\200\247\346\265\213\350\257\225\347\255\226\347\225\245.md" "b/Test_Strategy/openEuler_24.03_LTS_SP3/openEuler 24.03_LTS_SP3\347\211\210\346\234\254sysSentry\347\211\271\346\200\247\346\265\213\350\257\225\347\255\226\347\225\245.md" new file mode 100644 index 0000000000000000000000000000000000000000..7d759b5ff7566d62882f4b539978a5a1bb6b1dd7 --- /dev/null +++ "b/Test_Strategy/openEuler_24.03_LTS_SP3/openEuler 24.03_LTS_SP3\347\211\210\346\234\254sysSentry\347\211\271\346\200\247\346\265\213\350\257\225\347\255\226\347\225\245.md" @@ -0,0 +1,125 @@ +![openEuler ico](../../images/openEuler.png) + +版权所有 © 2025 openEuler社区 + 您对“本文档”的复制、使用、修改及分发受知识共享(Creative Commons)署名—相同方式共享4.0国际公共许可协议(以下简称“CC BY-SA 4.0”)的约束。为了方便用户理解,您可以通过访问https://creativecommons.org/licenses/by-sa/4.0/ 了解CC BY-SA 4.0的概要 (但不是替代)。CC BY-SA 4.0的完整协议内容您可以访问如下网址获取:https://creativecommons.org/licenses/by-sa/4.0/legalcode。 + + 修订记录 + +| 日期 | 修订版本 | 修改描述 | 作者 | +| ---- | ----------- | -------- | ---- | +| 2025.11.14 | 1.0.0 | 初版 | yangna | +| | | | | + +关键词: +灵渠、sysSentry + +摘要: +灵衢计算系统是一套全新的计算机体系架构,积极响应AI、HPC、大数据等新兴计算业务场景的挑战和需求,创新性地设计了数据中心级的设备间可对等访问的高带宽、低时延灵衢总线,并以灵衢总线为基础, +将CPU、NPU、GPU、DPU、存储、交换机等设备,通过灵衢总线对等互联,按需组合成板卡、节点、超节点、集群等多种形态的基础设施,为应用提供高性能、高可用的计算平台。 + +缩略语清单: + +| 缩略语 | 英文全名 | 中文解释 | +| ------ | -------- | -------- | +| | | | +| | | | + + +# 特性描述 +sysSentry是一款故障巡检框架,为用户提供在后台进行故障巡检的能力;sysSentry通过提前发现系统中的软硬件故障并及时通知系统运维人员处理的方式,达到减少故障演变为现网事故、提升系统可靠性的目标。 + +## 需求清单 +|no|feature|status|sig|owner|发布方式|涉及软件包列表| +|:----|:---|:---|:--|:----|:----|:----| +| 1 | 支持UB故障劫持能力及超节点故障上报能力 | done | | | rpm | sysSentry | +| | | | | | | | + +## 特性应用场景分析 + +1. panic/kernel_reboot时间通过URMA/UVB通道上报,故障劫持,消息答复功能 +2. reboot/oom通过sysSentry内部逻辑上报,消息答复功能 +3. ub内存故障上报以及故障上报后根据物理地址杀掉对应的业务进程功能。 + + +## 与其他特性交互描述 + +不涉及 + +## 风险项 + +无 +# 特性分层策略 +## 总体测试策略 +测试覆盖panic/reboot场景劫持通过URMA/UVB通道上报,消息答复功能,覆盖主动下电/oom通过sysSentry内部逻辑上报,消息答复功能,覆盖ub内存故障上报以及故障上报后根据物理地址杀掉对应的业务进程功能。 + +## 接口/功能测试 + + +| 接口描述 | 设计思路 | 测试重点 | 备注 | +| ------- | ------- | ------- | ---- | +| cna: 本端cna | 参数正常/异常值测试 | | | +| server_cna: 对端cna | 参数正常/异常值测试 | | | +| eid: 本端eid | 参数正常/异常值测试 | | | +| server_eid: 对端eid | 参数正常/异常值测试 | | | +| panic: panic监控on/off | 参数正常/异常值测试 | | | +| panic_timeout: panic阻塞时间 |参数正常/异常值测试 | | | +| kernel_reboot: kernel_reboot监控on/off | 参数正常/异常值测试 | | | +| kernel_reboot_timeout_ms: kernel_reboot阻塞时间 | 参数正常/异常值测试 | | | +| urma_comm: urma通信开关on/off | 参数正常/异常值测试 | | | +| uvb_comm: uvb通信开关on/off | 参数正常/异常值测试 | | | + + +## 场景测试 + +| 场景描述 | 设计思路 | 测试重点 | 备注 | +| ------- | ------- | ------- | ---- | +| 客户端发生panic事件 | | 客户端panic触发后流程阻塞,等待RA返回内存迁移结果后panic流程继续,若没接到回复那么客户端会阻塞该流程直到超时时间到后继续 | | +| 客户端kernel_reboot| | 客户端kernel_reboot触发后流程阻塞,等待RA返回内存迁移结果后kernel_reboot流程继续,若没接到回复那么客户端会阻塞该流程直到超时时间到后继续 | | +| 设备oom | | sysSentry 会对oom事件进行日志记录并上报 | | +|BMC下电 | | BMC触发下电后流程会阻塞并且上报RA,等待RA返回内存迁移结果,返回迁移成功下电流程继续,返回迁移失败下电流程终止,无应答下电流程终止 | | +| ub内存故障 | | UB内存故障后,sysSentry记录故障并上报,并杀死对应进程 | | + + +## 专项测试 + +| 专项测试类型 | 专项测试描述 | 测试预期结果 | 备注 | +| ----------- | ----------- | ----------- | ---- | +| | | | | +| | | | | + +# 特性测试执行策略 + +## 特性测试依赖描述 + +1. 灵衢环境 + +## 特性测试约束 + +1. 依赖灵衢硬件 + +## 特性测试环境描述 + +| 硬件型号 | 硬件配置信息 | 备注 | +| -------- | ------------ | ---- | +| 机器型号 | MatrixServer计算节点 | | + +## 测试计划 + +| Stange name | Begin time | End time | Days | 测试执行策略 | 备注 | +| :------------ | :--------- | :--------- | ---- | ----------------------------- | ------ | +|Test round 4/5/6/7|2025/11/14|2025/12/11|28|全量测试|NA| +|Test round 8/9|2025/12/12|2025/12/25|14|回归测试|NA| + +## 入口标准 +1. 功能开发已完成 +2. 上阶段无block问题遗留 +3. 基础功能验证正常 + + +## 出口标准 +1. 策略规划的测试活动涉及测试用例100%执行完毕 +2. 性能基线、功能基线等满足特性规划目标 +3. 无block问题遗留,其它严重问题要有相应规避措施或说明 + + +# 附件 \ No newline at end of file