稳定性与监控
type
status
date
slug
summary
tags
category
icon
password
Blocking
Blocked by
top
URL
Sub-item
Parent item
稳定性
故障定级
P0
主站挂掉,影响全站
p1
一级核心链路不可用
p1.5
- 对于重要客户的一级有重大影响但是未能定级为p1及以上的故障需要提高优先级。
- 客服、客户成功、产品、测试可以提级。
p2
二级核心链路不可用
p3
非核心链路且不涉及资损功能
故障应急
- p0p1故障5分钟内响应,30分钟内恢复。
- 应急处理原则
- 故障排查与恢复两条线并行。
值班长制度
- 各业务线TO(前后端),架构等。
- 每周或每月,由值班长中一人为当值值班长,其他为backup、轮流值班。
监控
意义
- 提前防范
- 事前预警
- 事后跟踪
监控三要素
- 指标
- 日志
- 调用链
接入监控
- 指标收集
- 日志收集
- 前端上报