鼎盛崩了#,冲到了热搜第一。
他点进去。二十分钟前,鼎盛系三款核心APP集体闪退,用户打开就白屏。
推荐系统的崩溃没有触发熔断。坏掉的模块像传染病一样顺着调用链往上爬,拖垮了依赖它的内容分发、搜索、首页加载,最后整条链路全死了。
十一点十五分鼎盛发了紧急公告。十一点四十分,APP陆续恢复上线,他们手动把推荐系统整个切掉了。
微博上有人贴了恢复后的截图。首页干干净净,没有“猜你喜欢”,没有个性化推荐,没有千人千面。就一个光秃秃的货架。
“这是2015年的APP吧?”
“鼎盛的推荐系统呢?去哪了?”
“切了。不切整个APP都用不了,你选哪个?”
韩路一打开视界。
【事件性质:系统级故障(无熔断→全链路雪崩)】
【根因:画像格式不适配→解析异常堆积→内存泄漏触发OOM→数据管道断裂→ 23%用户画像错乱→推荐模块崩溃未熔断→级联击穿全链路】
【影响范围:宕机期间全量用户(峰值约1200万在线),当前降级运行中】
【当前状态:手动切断推荐模块,APP降级运行】
【预测恢复周期:版本回退至原架构,约14天】
跟他的判断一模一样。
三月中旬他扫那个外包需求时看到的D-评级,一百四十个Bug,就指向这个结局。当时看到的是七十二小时。
从周一上午全量上线到周二晚上全线崩溃,还不到四十八小时。
比原本预估的还快了一天。
……
天亮之后的事,像多米诺骨牌。
有人翻出了韩路一一个月前那篇《推荐系统架构改造的七个经典陷阱》,发了一条帖子——
“兄弟们!NullPointer是预言家!一个月前精准描述了鼎盛今天的崩溃路径,七个陷阱全踩了!”
“什么预言家,是重生者!”
“不是全踩。我数了数,至少五个。”
“你数错了。第二个和第六个也中了,只是症状还没完全暴露。”
“所以是七个全踩?”
“七杀。”
帖子被版主置顶。博客阅读量开始飙。中午两万九。下午四万二。晚上破六万。技术媒体引用,大厂群截图传播,连几个头部科技公众号都转了
本章未完,请点击下一页继续阅读!