Google офіційно випустила Gemma 4 2 квітня 2026 року як одну з найпотужніших на сьогодні відкритих моделей. У Gemma 4 досягнуто значних проривів у нативних викликах функцій, агентських робочих процесах і багатомодальному сприйнятті, а також застосовано комерційно дружню ліцензію Apache 2.0, що приносить розробникам і компаніям у всьому світі безпрецедентну свободу та гнучкість.
Що таке Gemma 4? Головні характеристики — за секунду
Gemma 4 — це серія відкритих великих мовних моделей від Google DeepMind, що має спільну технологічну базу з моделями Gemini. Ключові переваги включають:
Покращені можливості міркування: підтримує покрокове планування та глибоке логічне міркування, значно випереджаючи інші відкриті моделі свого класу в тестах з математики та дотримання інструкцій.
Нативні агентські робочі процеси: вбудовані виклики функцій, структурований вивід у форматі JSON і підтримка системних інструкцій, тож дозволяють напряму керувати автономними AI-агентами та виконувати багатокрокові завдання.
Локальне розгортання: версії E2B та E4B спеціально оптимізовані для мобільних пристроїв та інших девайсів, можуть працювати повністю офлайн.
Повна багатомодальність: усі версії нативно підтримують введення зображень і відео; E2B та E4B додатково підтримують нативне введення аудіо.
Вікно наддовгого контексту: крайові моделі підтримують 128K token, тоді як більші моделі — до 256K token; це дає змогу передавати у межах одного запиту весь репозиторій коду або довгий документ.
Високоякісне генерування коду: підтримується офлайн-розробка коду; можна перетворити персональну робочу станцію на локальний AI-помічник для програмування.
Навчання більш ніж 140 мов: підтримує понад 140 мов у всьому світі, допомагаючи розробникам створювати багатомовні застосунки для міжнародних користувачів.
Чотири типи моделей — максимальна підтримка всіх сценаріїв застосування
Gemma 4 має чотири версії, оптимізовані під різні апаратні середовища та сценарії використання:
Effective 2B (E2B): спеціально для мобільних пристроїв та IoT, підтримує вікно контексту 128K, нативне введення аудіо, може повністю офлайн працювати на Android-пристроях, Raspberry Pi та інших крайових девайсах.
Effective 4B (E4B): так само оптимізована для крайового середовища, має багатомодальні можливості, досягаючи вражаючого балансу між ефективністю міркування та використанням пам’яті.
26B MoE (мікс експертів): під час міркування активується лише 3,8 млрд параметрів, що забезпечує низьку затримку та швидке міркування; підходить для локальних розгортань, де важливий пропускний потік.
31B Dense: флагманська версія, займає третє місце в текстовому рейтингу Arena AI, надає найвищу якість виходу та може повністю працювати на одному 80GB NVIDIA H100 GPU.
Квантизовані версії 26B MoE та 31B Dense ще краще можуть нативно виконуватися на споживчих відеокартах, щоб потужні можливості AI-розміркування справді стали доступними особистим розробникам на робочих столах.
Суттєвий прорив у локальному міркуванні: прощаємося з залежністю від API
Одна з найбільш обговорюваних особливостей Gemma 4 — це акцент на здатності до «локального (On-device) міркування». Моделі E2B та E4B розроблені для максимізації обчислювальної ефективності та ефективності пам’яті, тож можуть працювати на крайових пристроях на кшталт мобільних телефонів, Raspberry Pi, NVIDIA Jetson Orin Nano майже без затримок.
Це має великий вплив на розробників: раніше виклики хмарних AI API вимагали оплату за кожен запит, а також існували ризики затримок через мережу та проблеми із конфіденційністю даних. Завдяки можливостям локального міркування Gemma 4 розробники можуть запускати модель на власному обладнанні, суттєво знижуючи витрати на виклики API, а також отримують повний контроль над даними та можливість роботи офлайн.
Google тісно співпрацює з командою Pixel та мобільними партнерами на кшталт Qualcomm і MediaTek, щоб забезпечити найкращу продуктивність E2B/E4B на популярних Android-пристроях, а також відкриває для Android-розробників AICore Developer Preview, щоб допомогти з інтеграцією Gemini Nano 4.
Покращення агентських робочих процесів AI: нативні виклики функцій підвищують ефективність
Gemma 4 також реалізує нативну підтримку агентських робочих процесів (Agentic Workflows) — це один із найпомітніших стрибків у функціональності порівняно з попереднім поколінням. Ця модель підтримує:
Нативні виклики функцій (Function Calling): модель може напряму викликати зовнішні інструменти та API, виконуючи фактичні дії, наприклад запит до бази даних або виклик сторонніх сервісів.
Структурований вивід JSON: гарантує, що вихід моделі відповідає певному формату, що спрощує безшовну інтеграцію з бекенд-системами.
Нативні системні інструкції (System Instructions): розробники можуть задавати поведінку моделі на рівні системи, щоб налаштування ролі AI-агента було більш стабільним і послідовним.
Ці можливості дозволяють Gemma 4 стати універсальним автономним AI-агентом: вона не лише відповідає на запитання, а й активно взаємодіє з інструментами та автоматично виконує багатокрокові робочі процеси.
Повне оновлення багатомодальності: зір, аудіо, довгі тексти — все в одному
Усі моделі Gemma 4 мають нативні багатомодальні можливості, що суттєво розширює типи завдань, з якими вони можуть працювати.
Зображення та відео
Для візуального розуміння всі моделі підтримують нативну обробку зображень і відео, з підтримкою змінної роздільної здатності; у візуальних задачах на кшталт OCR (розпізнавання оптичного тексту) та розуміння діаграм показує виразні результати.
Введення аудіо
Щодо аудіо, крайові моделі E2B та E4B додатково підтримують нативне введення аудіо: можна напряму виконувати розпізнавання та розуміння мовлення без потреби в додатковому кроці перетворення мовлення на текст.
Наддовгий контекст
У роботі з документами крайові моделі підтримують вікно контексту 128K token; для більших моделей також доступно до 256K token, що дозволяє розробникам передавати у межах одного запиту весь репозиторій коду або довгий документ.
Офлайн-генерація коду
Підтримується високоякісне офлайн-створення коду, тож персональна робоча станція може стати локальним AI-помічником для програмування.
Підтримка 140+ мов
Нативне навчання понад 140 мов допомагає розробникам створювати застосунки для глобальних користувачів.
Ліцензія Apache 2.0: віховий момент для екосистеми open-source
Gemma 4 виходить під ліцензією Apache 2.0. Це одна з найкомерційно дружніх ліцензій у open-source спільноті. Розробники та компанії можуть вільно використовувати, змінювати й розповсюджувати модель. Незалежно від того, чи розгортання відбувається в приватній інфраструктурі, у гібридній хмарі, чи модель вбудовується в комерційні продукти, додаткових обмежень немає.
Потужна підтримка екосистеми
Gemma 4 також отримує повну підтримку з боку провідних інструментів індустрії, включно з Hugging Face (Transformers, TRL, Transformers.js), Ollama, vLLM, llama.cpp, MLX, LM Studio, NVIDIA NIM та NeMo, Keras, Vertex AI тощо.
Розробники можуть напряму завантажити ваги моделей через Hugging Face, Kaggle або Ollama, а також онлайн протестувати версії 31B та 26B MoE в Google AI Studio або спробувати E2B та E4B через Google AI Edge Gallery.
Для компаній, яким потрібні масштабні розгортання, Google Cloud надає повне хмарне рішення: воно охоплює Vertex AI, Cloud Run, GKE, Sovereign Cloud та сервіси прискореного міркування на TPU, усуваючи обмеження за пропускною здатністю локальних обчислень.
Зниження витрат без втрати можливостей: Gemma 4 — новий вибір для розробників
Вихід Gemma 4 — це віховий момент у світі відкритих AI-моделей. Як інструмент рівня enterprise з можливістю продуктивного розгортання, він може працювати офлайн на смартфонах, викликати зовнішні інструменти та автономно виконувати завдання, обробляти довгі документи й багатомодальні введення, одночасно дозволяючи всім вільно користуватися ним.
Для розробників і компаній, які хочуть знизити витрати на виклики API, але зберегти AI-можливості, Gemma 4 пропонує дуже привабливий шлях.
Ця стаття про те, що Google випускає відкриту модель Gemma 4: «локальне міркування» посилює ефективність агентських робочих процесів AI, вперше з’явилася на Ланцюгові Новини ABMedia.