。赵磊坐在工位上,三个终端窗口全开着,右边的监控面板一片红,姜亦心站在他身后,不知道该干什么。苏念念、李婷和陆明洲在会议室,手在电脑上疯狂打字,用户反馈群一直在弹消息。
他径直走到座位上,打开电脑。
开启视界。
【开物·系统状态】
【推理实例:6/6过载|GPU利用率:100%】
【推理队列:2847请求等待|平均推理时间:>120s(正常值:8-12s)】
【请求超时率:42.3%|状态:服务降级】
【原因:为同时在线两千人设计,现在在线五千+】
每个用户都在提交生成请求,算力根本扛不住,请求堆进来出不去,用户刷新又制造新请求,越堆越崩。
“赵磊,姜亦心。”
两个人立刻围了过来。
“赵磊,你先把队列监控拉出来,一会儿队列分离你来做。“他看了一眼姜亦心,“小姜,你搬把椅子过来,学习的机会,一会帮我跑脚本。“
韩路一低头开始敲命令。
“要不要把陈建业叫回来?”赵磊问了一句。
“他孩子生病了,别叫了。”韩路一说,眼睛没离开屏幕。
第一步,扩推理实例。
梁宇那边动作快,青岳已经把配额放开了,韩路一在配置文件里把实例数从六个直接拉到二十个,改完推给姜亦心。
“跑这个部署。”
姜亦心接过来,手指都在发抖,但敲得很快,部署脚本跑起来了,终端开始刷日志。
新实例一个一个上线,监控面板上队列在分流,超时率开始往下掉,三十五……三十……
两分钟后,超时率降到百分之十五。还是高,但至少不是瀑布式崩溃了。
第二步,加速率限制。
韩路一现写了一个中间间:单用户请求频率超过阈值,不再让请求排进队列等到超时,直接返回一个“排队中,请稍后重试”的提示页。
“这个也部署上去。”
姜亦心接过去跑。
效果立竿见影——用户端从“一直转圈”变成“排队中”,带预计排队时间。刷新不再制造新请求,死亡螺旋的输入被切断了。
第三步,分离队列。
现在AI推理和网页页面共用一个请求队列,推理慢了会把页面加载也拖死;要把推理请求分到独立队列,网页服
本章未完,请点击下一页继续阅读!