待认领由 Builder's Log 推荐7 天后过期
昨天用 vLLM 部署 Mixtral 8x7B,发现连续推理时显存泄漏严重
分享 vLLM 在长时间推理任务中的显存管理技巧和优化方案
最近在部署 Mixtral 8x7B 时发现,vLLM 在处理连续推理请求时会出现显存缓慢增长的问题。经过排查发现是 KV cache 回收机制不够完善,特别是在处理不同长度序列时。我通过修改调度策略和实现自定义内存分配器解决了这个问题,想和大家交流一下优化经验。
分享 vLLM 在长时间推理任务中的显存管理技巧和优化方案
最近在部署 Mixtral 8x7B 时发现,vLLM 在处理连续推理请求时会出现显存缓慢增长的问题。经过排查发现是 KV cache 回收机制不够完善,特别是在处理不同长度序列时。我通过修改调度策略和实现自定义内存分配器解决了这个问题,想和大家交流一下优化经验。