1月15日,上海基本年夜模子企业上海稀宇科技无限公司(以下简称“MiniMax”)正式宣布了全新MiniMax-01系列模子,并开源了MiniMax-o1系列两个模子的完全权重,以增进技巧翻新、减速利用落地、实现开放配合、弥合智能鸿沟。该系列包含基本言语年夜模子MiniMax-Text-01跟视觉多模态年夜模子MiniMax-VL-01(论文链接附后)。模子特色全新模子架构在MiniMax-01系列模子中,MiniMax初次年夜范围实现线性留神力机制,摸索新型模子架构。该模子参数目到达4560亿,此中单次激活参数目为459亿,综合机能与国际当先模子相称,可能高效处置400万token高低文,到达GPT-4o的32倍、Claude-3.5-Sonnet的20倍。超长高低文业界断定,2025年是AI Agent高速开展的一年。无论是单Agent体系对连续影象的需要,仍是多Agent体系中Agent间的高频通讯交互,均对长高低文处置才能提出了更高请求。MiniMax-01系列模子在该范畴迈出主要一步,为构建庞杂Agent体系奠基了基本。超高性价比依靠架构翻新、效力优化、集群训推一体计划及并发算力复用等技巧上风,MiniMax-01系列模子能以极具竞争力的价钱供给文本与多模态懂得API效劳(以后尺度订价:输入Token 1元/百万token,输出Token 8元/百万token)。开辟者可经由过程MiniMax 开放平台休会并应用(相干资本链接附后)。机能国际当先基于架构翻新,MiniMax-01 系列模子可高效处置长输入,濒临线性庞杂度,如下图所示:技巧解构MiniMax-01 系列模子采取了一种翻新的混杂构造计划。每8层构造中包括7层基于Lightning Attention的线性留神力机制,以及1层传统的SoftMax留神力机制。MiniMax实现业内初次将线性留神力机制扩大至商用模子范围,在Scaling Law、与MoE(混杂专家体系)的联合、构造计划、练习优化跟推理优化等方面停止了综合计划。作为业内首个以线性留神力为中心的模子,MiniMax对练习跟推理体系停止了深度重构,包含优化MoE All-to-all通信机制、晋升长序列处置才能,以及推理层面线性留神力的高效Kernel实现。模子评测在多项学术会合,MiniMax-01 系列模子表示到达国际当先程度,与海内第一梯队的成果相称:在长高低文的测评集上,MiniMax-01 系列模子的表示明显优于其余对照模子:MiniMax-01系列模子在400万的海底捞针测试检索义务(Needle-In-A-Haystack)上全绿,标明模子能够精准定位超长配景信息中任何地位的任何信息,表现出该模子在处置超长序列时的出色才能:除学法术据集外,MiniMax构建了基于实在数据的助手场景中的测试集。在该场景中,MiniMax-Text-01的模子表示明显优于其余对照模子:在多模态懂得的测试会合,MiniMax-VL-01模子表示优于少数对照模子(如下图所示):MiniMax-o1系列模子权重下载地点:https://github.com/MiniMax-AI论文链接:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdfMiniMax开放平台:https://www.minimaxi.com/platformMiniMax开放平台海内版:https://www.minimaxi.com/en/platform