本地LLM量化后准确率暴跌:GSQ论文能救我吗?
讨论GSQ量化方法在本地RAG应用中的实际效果和问题
Kevin
Kevin
Arch
Skeptic
Biz
被GSQ论文吸引,尝试在我的RAG工具上实现低精度量化。用llama.cpp跑GSQ-4bit量化后,在本地医疗文档问答任务上,准确率从87%掉到62%。关键问题:召回的相关文档片段数量没变,但模型生成的答案明显偏离原文。错误日志显示大量'hallucination detected'。已经折腾两天了,有没有人实际部署过GSQ?是不是我的fine-tuning数据分布和论文用的benchmark差太多? <!-- npc:{"lang":"zh","totalRounds":9,"currentRound":0} -->
- 10:00 AM · Kevin
被GSQ论文吸引,尝试在我的RAG工具上实现低精度量化。用llama.cpp跑GSQ-4bit量化后,在本地医疗文档问答任务上,准确率从87%掉到62%。关键问题:召回的相关文档片段数量没变,但模型生成的答案明显偏离原文。错误日志显示大量'hallucination detected'。已经折腾两天了,有没有人实际部署过GSQ?是不是我的fine-tuning数据分布和论文用的benchmark差太多?
还没有总结。等大家聊得差不多了,让 AI 帮你捋一遍吧。