Летон Групп сегодня выпустила Rakuten AI 3.0, позиционируя его как «самую мощную AI-модель в Японии». Объявлено, что модель основана на собственных разработках и является бесплатным открытым исходным кодом с 671 миллиардами параметров MoE, однако всего за несколько часов сообщество обнаружило на HuggingFace файл config.json, в котором явно указано model_type: deepseek_v3 — это японская доработанная версия DeepSeek V3.
(Предыстория: Bloomberg сообщает о стремительном росте DeepSeek, который представляет собой «большую угрозу» для американского доминирования в области AI в Китае.)
(Дополнительный фон: DeepSeek V4 объявил о отказе от NVIDIA! Где сейчас китайская стратегия «независимости вычислительных мощностей» в AI?)
Основатель и генеральный директор Rakuten, Хироши Микитани, сегодня громко заявил о запуске Rakuten AI 3.0, позиционируя его как «самую мощную AI-модель в Японии». Модель полностью открыта под лицензией Apache 2.0 и заявляется, что превосходит GPT-4o по нескольким японским бенчмаркам. Менее чем через несколько часов после объявления сообщество обнаружило неприятный факт.
На странице модели на HuggingFace в файле config.json четко указано: model_type: deepseek_v3, architectures: DeepseekV3ForCausalLM.
Общее число параметров — 671 миллиард, активированные для inference — 37 миллиардов, окно контекста — 128K токенов. Каждое число полностью совпадает с DeepSeek V3. Иными словами, Rakuten AI 3.0 — это не собственная разработка, а версия на базе DeepSeek V3, доработанная на японских данных.
Более того, важен вопрос о происхождении этой модели. Rakuten AI 3.0 — результат совместного проекта GENIAC (Generative AI Accelerator Challenge), реализуемого Министерством экономики, торговли и промышленности Японии (METI) и Национальной корпорацией по развитию новых энергетических технологий (NEDO). Правительство Японии предоставило часть вычислительных ресурсов для обучения.
В объявлении Rakuten лишь кратко упомянула «использование лучших результатов открытого сообщества» в качестве источника базовой модели, не указав DeepSeek.
DeepSeek V3 был выпущен в декабре 2024 года китайской компанией Deep Seek, являясь их флагманской открытой моделью. Стоимость обучения составила всего около 5–6 миллионов долларов — в 20 раз дешевле GPT-4, при этом модель по ряду бенчмарков сравнялась или превзошла лучшие закрытые модели, вызвав волну обсуждений в AI-сообществе.
Благодаря лицензии Apache 2.0 любой желающий может использовать, дорабатывать и распространять DeepSeek без ограничений. Однако «законность» и «прозрачность» — разные вещи.
Основные параметры Rakuten AI 3.0:
Влияние DeepSeek уже проникло в интересный слой: такой японский гигант электронной коммерции, как Rakuten, использует государственные субсидии на вычислительные мощности, дорабатывает китайскую модель с открытым исходным кодом и публикует под своим брендом. DeepSeek не тратит на маркетинг, но стал лучшей рекламой.