Berita Gate, 19 Maret — Xiaomi secara resmi merilis seri model AI MiMo-V2 hari ini dini hari, yang mencakup tiga produk utama: model inferensi flagship Pro, basis multimodal Omni, dan sintesis suara TTS.
MiMo-V2-Pro memiliki total parameter lebih dari 1 triliun (42B parameter aktif), mendukung konteks panjang hingga 1 juta token, dirancang khusus untuk skenario kerja Agen. Menduduki peringkat kedelapan secara global dan kedua di dalam negeri di peringkat Artificial Analysis, serta berada di posisi ketiga secara global dalam penilaian PinchBench dan ClawEval. Kinerja keseluruhan melampaui Claude Sonnet 4.6 dan mendekati Opus 4.6, namun harganya hanya 1/5 dari yang kedua: $1 untuk input dalam konteks hingga 256K, output $3 per juta token; $2 untuk input hingga 1 juta konteks, output $6 per juta token. Modul MiMo Claw telah terintegrasi dengan ekosistem WebOffice dari Kingsoft, dan WPS Lingxi juga terhubung secara sinkron.
MiMo-V2-Omni adalah basis multimodal yang mendukung input teks, gambar, audio, dan video secara bersamaan, dengan konteks hingga 256K, harga $0.4 untuk input dan $2 untuk output per juta token. Dalam hal audio, mendukung pemahaman audio panjang lebih dari 10 jam secara berkelanjutan, dan penilaian komprehensif melampaui Gemini 3 Pro; dalam pemahaman gambar, melampaui Claude Opus 4.6 dan mendekati Gemini 3 Pro.
MiMo-V2-TTS didasarkan pada Audio Tokenizer buatan sendiri, yang telah dilatih dengan lebih dari satu miliar jam data suara, mendukung kontrol multi-granular dari gaya keseluruhan hingga emosi lokal, mampu mensintesis suara nyanyian berkualitas tinggi, termasuk dialek seperti dialek Timur Laut, Sichuan, Henan, Kanton, dan Taiwan.
Ketiga model ini kini telah terintegrasi dengan Xiaomi miclaw, MiMo Studio, Kingsoft Office, dan Xiaomi Browser, serta dapat diakses melalui lima kerangka pengembangan Agen: OpenClaw, OpenCode, KiloCode, Blackbox, dan Cline, selama satu minggu secara gratis.