故障分级
根据故障的严重程度和影响范围,虚谷数据库故障问题等级可分为5级。
虚谷数据库故障分级和特点如表1所示。故障级别 | 故障分类 | 内容描述 | 响应能力 | 负责人 |
---|---|---|---|---|
P1 | 一级故障 | 业务中断:系统故障、系统崩溃或其他状况导致核心业务中断 | 即时响应 恢复时间≤2小时 | 运维主管 |
数据损坏:在线数据服务中断(数据丢失或损坏)、数据备份失效或备份文件损坏 | 即时响应 恢复时间≤2小时 | 运维主管 | ||
性能效率:业务数据服务响应效率降速较大,导致业务大量积压,无法正常提供业务服务 | 即时响应 恢复时间≤2小时 | 运维主管 | ||
P2 | 二级故障 | 业务受限:系统核心功能受影响,业务服务降级(并发数降档或访问受限),如:CPU、内存高水位 | 即时响应 恢复时间≤2小时 | 运维主管 |
风险升级:系统服务处于临界线,随时可能发生正常业务中断(如:存储副本低于安全线;磁盘容量到顶,无法正常写入;数据副本低于安全版本;网络丢包严重或带宽容量到顶) | 即时响应 恢复时间≤2小时 | 运维主管 | ||
备份失效:系统无备份、备份失效或备份文件损坏 | 即时响应 恢复时间≤2小时 | 运维主管 | ||
P3 | 三级故障 | 系统完整:系统服务正常,但存在部分功能缺失(如:存储单版本失效;单节点失效;多网络下单网络失效等) | 即时响应 恢复时间≤2小时 | 运维主管 |
状态失效:数据库对象状态失效(如:索引对象、数据库对象) | 响应时间≤2小时 恢复时间≤30分钟 | 运维主管 | ||
统计偏差:统计信息失真,导致系统执行路径变化(如:表数据统计信息) | 响应时间≤2小时 恢复时间≤30分钟 | 运维主管 | ||
P4 | 四级故障 | 功能缺陷:功能性缺陷报错或与标准实现相悖 | 响应时间≤12小时 | 运维工程师 |
防护受损:安全漏洞、防火墙失效、病毒感染 | 响应时间≤24小时 恢复时间≤30分钟 | 运维工程师 | ||
P5 | 五级故障 | 风险漏洞:用户密码及权限管控风险,数据传输明文传输,SQL注入风险等 | 响应时间≤24小时 恢复时间≤30分钟 | 运维工程师 |