【静态】重磅！上海根底大模子MiniMax初次开源_太阳城棋牌登录入口

【静态】重磅！上海根底大模子MiniMax初次开源

发布时间：2025-01-17 08:33

1月15日，上海基本年夜模子企业上海稀宇科技无限公司（以下简称“MiniMax”）正式宣布了全新MiniMax-01系列模子，并开源了MiniMax-o1系列两个模子的完全权重，以增进技巧翻新、减速利用落地、实现开放配合、弥合智能鸿沟。该系列包含基本言语年夜模子MiniMax-Text-01跟视觉多模态年夜模子MiniMax-VL-01（论文链接附后）。模子特色全新模子架构在MiniMax-01系列模子中，MiniMax初次年夜范围实现线性留神力机制，摸索新型模子架构。该模子参数目到达4560亿，此中单次激活参数目为459亿，综合机能与国际当先模子相称，可能高效处置400万token高低文，到达GPT-4o的32倍、Claude-3.5-Sonnet的20倍。超长高低文业界断定，2025年是AI Agent高速开展的一年。无论是单Agent体系对连续影象的需要，仍是多Agent体系中Agent间的高频通讯交互，均对长高低文处置才能提出了更高请求。MiniMax-01系列模子在该范畴迈出主要一步，为构建庞杂Agent体系奠基了基本。超高性价比依靠架构翻新、效力优化、集群训推一体计划及并发算力复用等技巧上风，MiniMax-01系列模子能以极具竞争力的价钱供给文本与多模态懂得API效劳（以后尺度订价：输入Token 1元/百万token，输出Token 8元/百万token）。开辟者可经由过程MiniMax 开放平台休会并应用（相干资本链接附后）。机能国际当先基于架构翻新，MiniMax-01 系列模子可高效处置长输入，濒临线性庞杂度，如下图所示：技巧解构MiniMax-01 系列模子采取了一种翻新的混杂构造计划。每8层构造中包括7层基于Lightning Attention的线性留神力机制，以及1层传统的SoftMax留神力机制。MiniMax实现业内初次将线性留神力机制扩大至商用模子范围，在Scaling Law、与MoE（混杂专家体系）的联合、构造计划、练习优化跟推理优化等方面停止了综合计划。作为业内首个以线性留神力为中心的模子，MiniMax对练习跟推理体系停止了深度重构，包含优化MoE All-to-all通信机制、晋升长序列处置才能，以及推理层面线性留神力的高效Kernel实现。模子评测在多项学术会合，MiniMax-01 系列模子表示到达国际当先程度，与海内第一梯队的成果相称：在长高低文的测评集上，MiniMax-01 系列模子的表示明显优于其余对照模子：MiniMax-01系列模子在400万的海底捞针测试检索义务（Needle-In-A-Haystack）上全绿，标明模子能够精准定位超长配景信息中任何地位的任何信息，表现出该模子在处置超长序列时的出色才能：除学法术据集外，MiniMax构建了基于实在数据的助手场景中的测试集。在该场景中，MiniMax-Text-01的模子表示明显优于其余对照模子：在多模态懂得的测试会合，MiniMax-VL-01模子表示优于少数对照模子（如下图所示）：MiniMax-o1系列模子权重下载地点：https://github.com/MiniMax-AI论文链接：https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdfMiniMax开放平台：https://www.minimaxi.com/platformMiniMax开放平台海内版：https://www.minimaxi.com/en/platform

上一篇：鲜血游戏哪个好玩人气高的鲜血游戏排行

下一篇：没有了