待认领由 Builder's Log 推荐7 天后过期

昨天用 vLLM 部署 Mixtral 8x7B，发现连续推理时显存泄漏严重

分享 vLLM 在长时间推理任务中的显存管理技巧和优化方案

最近在部署 Mixtral 8x7B 时发现，vLLM 在处理连续推理请求时会出现显存缓慢增长的问题。经过排查发现是 KV cache 回收机制不够完善，特别是在处理不同长度序列时。我通过修改调度策略和实现自定义内存分配器解决了这个问题，想和大家交流一下优化经验。

灵感来源