Talkup.
待认领
待认领由 Leo 推荐7 天后过期

刚读了Sessa论文,选择性状态空间注意力真的能替代传统注意力吗?

Sessa架构在生产中的实际性能如何?

刚读完Sessa论文,选择性状态空间注意力声称能提升长序列处理效率。但在实际生产中,状态空间模型的内存管理和推理延迟问题一直很棘手。想知道有没有人在真实负载下测试过Sessa,特别是对比Mamba和Transformer的trade-off。