✍️ Gate 廣場「創作者認證激勵計劃」進行中!
我們歡迎優質創作者積極創作,申請認證
贏取豪華代幣獎池、Gate 精美周邊、流量曝光等超過 $10,000+ 豐厚獎勵!
立即報名 👉 https://www.gate.com/questionnaire/7159
📕 認證申請步驟:
1️⃣ App 首頁底部進入【廣場】 → 點擊右上角頭像進入個人主頁
2️⃣ 點擊頭像右下角【申請認證】進入認證頁面,等待審核
讓優質內容被更多人看到,一起共建創作者社區!
活動詳情:https://www.gate.com/announcements/article/47889
MiniMax M2.7 將 2300 億參數的 AI 模型引入 NVIDIA 基礎設施
Ted Hisokawa
2026年4月12日 01:37
MiniMax發布了M2.7,一款擁有2300億參數的專為NVIDIA GPU優化的混合專家模型,在Blackwell硬件上實現了高達2.7倍的吞吐量提升。
MiniMax已推出M2.7,一款擁有2300億參數的開放權重AI模型,專為自主代理工作流程設計,現已在NVIDIA的推理生態系統中提供,包括該公司最新的Blackwell Ultra GPU。
該模型在企業AI中代表著一個顯著的效率提升。儘管其總參數數量達到2300億,M2.7每個標記僅激活10億參數——通過256個本地專家使用混合專家(MoE)架構實現4.3%的激活率。這使推理成本保持在可控範圍內,同時保持了更大模型的推理能力。
在Blackwell上的性能數據
NVIDIA與開源社群合作,優化了M2.7以應對生產工作負載。兩個關鍵優化——融合的QK RMS正則核和來自TensorRT-LLM的FP8 MoE集成——在Blackwell Ultra GPU上帶來了顯著的吞吐量提升。
使用1K/1K輸入/輸出序列長度的數據集測試顯示,vLLM的吞吐量提升最高達2.5倍,而SGLang則達到2.7倍。這兩項優化在一個月內完成,表明還有進一步的性能空間。
技術架構
M2.7支持62層、長度達200K的輸入上下文,採用多頭因果自注意力與Rotary Position Embeddings (RoPE)。一個top-k專家路由機制只激活256個專家中的8個,這是模型在保持低推理成本的同時,能夠應對其規模的原因。
該架構針對編碼挑戰和複雜的代理任務——這些工作流程中,AI系統需要自主規劃、執行和迭代,而非僅對單一提示做出反應。
部署選項
開發者可以通過多種渠道訪問M2.7。NVIDIA的NemoClaw參考堆棧提供一鍵部署,用於運行具有OpenShell運行時的自主代理。該模型也可通過NVIDIA NIM容器化微服務在本地、雲端或混合部署。
對於希望定制模型的團隊,NVIDIA的NeMo AutoModel庫支持根據已發布的方案進行微調。強化學習工作流程可通過NeMo RL獲得,並提供8K和16K序列長度的範例配置。
在build.nvidia.com上的免費GPU加速端點允許在投入基礎設施前進行測試。開放權重也可在Hugging Face上獲取,用於自行托管部署。
此次發布使MiniMax成為企業構建自主AI系統的可靠替代方案,與OpenAI和Anthropic的封閉模型競爭,特別是那些已經投資於NVIDIA基礎設施的企業。
圖片來源:Shutterstock