解决传统架构记忆瓶颈 MiniMax发布新一代模型

2025-01-16 09:56:39 来源：新京报

观看：51

1月15日，“AI六小虎”之一的MiniMax发布并开源了新一代01系列模型，包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型使用多项突破性创新，以大规模应用线性注意力机制打破了Transformer传统架构的记忆瓶颈。

未来，AI智能体有望成为最重要的产品形态，由于智能体处理的任务变得越来越复杂，涉及的数据量也越来越大，单个智能体的记忆以及多个智能体协作间的上下文都会变得越来越长。因此，长上下文能力与多模态处理能力的提升至关重要。

技术上，MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的级别，受益于此次架构创新，该系列模型在处理长输入的时候具有非常高的效率，接近线性复杂度。从规模效应、结构设计、训练优化和推理优化等层面综合考虑，MiniMax选择模型参数量为4560亿，其中每次激活459亿，能够高效处理400万token的上下文，将有效替代Transformer传统架构并开启超长文本输入时代。相较于Gemini等一众全球顶级模型，MiniMax-01随着输入长度变长，性能衰减最慢。

值得注意的是，MiniMax还开源了Text-01模型、VL-01模型的完整权重，以便于更多开发者做有价值、突破性的研究。MiniMax方面表示，“我们认为这有可能启发更多长上下文的研究和应用，从而更快促进Agent时代的到来，二是开源也能促使我们努力做更多创新，更高质量地开展后续的模型研发工作。”

1月15日，“AI六小虎”之一的MiniMax发布并开源了新一代01系列模型，包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型使用多项突破性创新，以大规模应用线性注意力机制打破了Transformer传统架构的记忆瓶颈。

未来，AI智能体有望成为最重要的产品形态，由于智能体处理的任务变得越来越复杂，涉及的数据量也越来越大，单个智能体的记忆以及多个智能体协作间的上下文都会变得越来越长。因此，长上下文能力与多模态处理能力的提升至关重要。

技术上，MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的级别，受益于此次架构创新，该系列模型在处理长输入的时候具有非常高的效率，接近线性复杂度。从规模效应、结构设计、训练优化和推理优化等层面综合考虑，MiniMax选择模型参数量为4560亿，其中每次激活459亿，能够高效处理400万token的上下文，将有效替代Transformer传统架构并开启超长文本输入时代。相较于Gemini等一众全球顶级模型，MiniMax-01随着输入长度变长，性能衰减最慢。

值得注意的是，MiniMax还开源了Text-01模型、VL-01模型的完整权重，以便于更多开发者做有价值、突破性的研究。MiniMax方面表示，“我们认为这有可能启发更多长上下文的研究和应用，从而更快促进Agent时代的到来，二是开源也能促使我们努力做更多创新，更高质量地开展后续的模型研发工作。”

本文链接：解决传统架构记忆瓶颈 MiniMax发布新一代模型http://www.llsum.com/show-2-10161-0.html

声明：本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：深瞳丨AI为药物研发按下“快进键”

下一篇：丝巾变色、火柴变玫瑰年货节期间淘宝魔术道具销量大增174%

解决传统架构记忆瓶颈 MiniMax发布新一代模型

热门资讯

推荐资讯

科技最热文章