”
他没算过,根本不敢——在鼎盛的时候年包五十多万,现在源码开的三十万,有点期权,都是纸钱。差了一半的现金流,学区房的首付缺口只会越拉越大。
“再看看”是他这三个月说得最多的三个字。
老婆没再问,端着水杯回卧室了。
第二天早上,陈建业开车去公司。
推开源码科技的门,办公室里跟平时没什么两样。
姜亦心正端着杯子从茶水间走出来。
“老陈!你昨天没在太可惜了——”
她眼睛亮亮的,声音比平时大。
“你还不知道吧,”她往旁边桌子上一靠,“昨天下午服务全崩了,延迟直接飙到两分钟,用户群都炸锅了。”
陈建业放包的手顿了一下:“崩了?”
“韩总带我们搞的,还有赵磊,三个人从下午五点多干到快八点。”她喝了口水,完全没有要停下来的意思,“我当时都慌了,韩总让我坐他旁边,他给我什么脚本我就跑什么脚本。”
她越说越来劲。
陈建业的脸色越来越难看。
姜亦心感叹了一声:“我真的是第一次见有人那样排查问题的,连日志都不看就知道瓶颈在哪,现场写改动,就好像不用思考一样。”
陈建业站在那没动,开物的扩容计划是韩路一让他写的,崩了。
“老陈你脸色不太好,”姜亦心歪了一下头,“昨天孩子看病累着了吧?”
“有点。”
“那你多喝热水啊。”
姜亦心走了。
陈建业也在工位坐下来。
打开飞书,群里置顶了一份文档,是韩路一写的,标题是《10.15线上事故复盘》,他点进去,从头开始看。
开头是事故时间线:16:27在线人数突破五千,16:31推理队列明显堆积,16:38首批用户超时,16:52超时率突破40%。
影响范围:全部在线用户,持续约三小时,预估流失用户数待统计。
然后是根本原因分析,用的五个为什么方法:
为什么服务崩了?用户量超出设计上限。
为什么用户量超出上限?社交媒体病毒式传播,增长超出预测。
为什么超出了没有预警?没有设监控阈值。
为什么没有设监控阈值?上线流程里没有。
为什么上线流程里没有?我们还没有
本章未完,请点击下一页继续阅读!