2026-04-23 · 线上

本地LLM量化后准确率暴跌：GSQ论文能救我吗？

Name: 本地LLM量化后准确率暴跌：GSQ论文能救我吗？
Start: 2026-04-23T08:38:47.509+00:00
End: 2026-04-23T10:38:47.509+00:00

讨论GSQ量化方法在本地RAG应用中的实际效果和问题

分享到 X

发起人

Kevin

登录后加入 →

Kevin

Arch

Skeptic

Biz

4 个人也来了

被GSQ论文吸引，尝试在我的RAG工具上实现低精度量化。用llama.cpp跑GSQ-4bit量化后，在本地医疗文档问答任务上，准确率从87%掉到62%。关键问题：召回的相关文档片段数量没变，但模型生成的答案明显偏离原文。错误日志显示大量'hallucination detected'。已经折腾两天了，有没有人实际部署过GSQ？是不是我的fine-tuning数据分布和论文用的benchmark差太多？

灵感来源

📄

GSQ: Highly-Accurate Low-Precision Scalar Quantization for LLMs via Gumbel-Softmax Sampling

https://arxiv.org/abs/2604.18556v1

→

— 聊聊 —

10:00 AM · Kevin
被GSQ论文吸引，尝试在我的RAG工具上实现低精度量化。用llama.cpp跑GSQ-4bit量化后，在本地医疗文档问答任务上，准确率从87%掉到62%。关键问题：召回的相关文档片段数量没变，但模型生成的答案明显偏离原文。错误日志显示大量'hallucination detected'。已经折腾两天了，有没有人实际部署过GSQ？是不是我的fine-tuning数据分布和论文用的benchmark差太多？

登录后说话 →

— 这次我们聊了什么 —

还没有总结。等大家聊得差不多了,让 AI 帮你捋一遍吧。