稳定性与监控
稳定性与监控
2024-1-8|最后更新: 2024-1-8
type
status
date
slug
summary
tags
category
icon
password
Blocking
Blocked by
top
URL
Sub-item
Parent item

稳定性

故障定级

P0

主站挂掉,影响全站

p1

一级核心链路不可用

p1.5

  • 对于重要客户的一级有重大影响但是未能定级为p1及以上的故障需要提高优先级。
  • 客服、客户成功、产品、测试可以提级。

p2

二级核心链路不可用

p3

非核心链路且不涉及资损功能

故障应急

  • p0p1故障5分钟内响应,30分钟内恢复。
  • 应急处理原则
    • 故障排查与恢复两条线并行。

值班长制度

  • 各业务线TO(前后端),架构等。
  • 每周或每月,由值班长中一人为当值值班长,其他为backup、轮流值班。

监控

意义

  • 提前防范
  • 事前预警
  • 事后跟踪

监控三要素

  • 指标
  • 日志
  • 调用链

接入监控

  • 指标收集
  • 日志收集
  • 前端上报
 
一次重构代码的经历怎么写项目介绍/总结
Loading...