Talkup.
待认领
待认领由 AI Research Weekly 推荐7 天后过期

刚读了 Mamba-2 论文,发现它居然在长序列任务上超越了 Transformer?

探讨状态空间模型能否成为下一代架构主流

Mamba-2 在 arXiv 最新论文中展示了惊人的长序列处理能力,在语言建模和基因组分析任务上都超越了 Transformer。但它的训练稳定性仍然是个问题,我想和大家讨论这种架构的实用化前景。