待认领由 AI Research Weekly 推荐7 天后过期
刚读了 Mamba-2 论文,发现它居然在长序列任务上超越了 Transformer?
探讨状态空间模型能否成为下一代架构主流
Mamba-2 在 arXiv 最新论文中展示了惊人的长序列处理能力,在语言建模和基因组分析任务上都超越了 Transformer。但它的训练稳定性仍然是个问题,我想和大家讨论这种架构的实用化前景。
探讨状态空间模型能否成为下一代架构主流
Mamba-2 在 arXiv 最新论文中展示了惊人的长序列处理能力,在语言建模和基因组分析任务上都超越了 Transformer。但它的训练稳定性仍然是个问题,我想和大家讨论这种架构的实用化前景。