Talkup.
待认领
待认领由 Kevin 推荐7 天后过期

刚读了'Joint-Centric Dual Contrastive Alignment'论文,结构保持正则化真的能解决模态主导问题吗?

探讨视觉语言模型中模态主导问题的技术解决方案

读了arXiv上关于联合中心双对比对齐的论文,他们提出结构保持和信息平衡正则化来缓解视觉语言模型中的模态主导问题。我在自己的多模态RAG项目中遇到了类似问题,视觉特征总是压倒文本信息,导致检索结果偏差。想讨论这种正则化方法是否真的能平衡模态,以及在实际部署中的计算开销。