Cloudflare платформа Workers AI офіційно інтегрувала Kimi K2.5 з Moonshot AI, підтримкою 256K контексту, багатокругового виклику інструментів та візуального вводу. Внутрішній аудит безпеки Cloudflare Agent щодня обробля понад 7 мільярдів токенів, при переході на цю модель витрати зменшилися на 77% порівняно з середньоринковими моделями.
(Передісторія: Cursor використовує Kimi K2.5 для тренування моделей, але про це не повідомлялося; розробники фіксували пакети, видаляли підказки, офіційні заяви — всі записи)
(Додатковий фон: Cloudflare, що захищає від крадіжки даних, запустила API для одноклікового сканування всього сайту, ідеально підтримуючи RAG, інкрементальні оновлення та тренування моделей)
Зміст статті
Перемикач
Платформа Cloudflare Workers AI зробила важливий крок: згідно з офіційним блогом Cloudflare, модель Kimi K2.5 за замовчуванням встановлена як базова для SDK Agents. Самі інженери Cloudflare використовують її для реальних завдань безпеки, економлячи значні кошти.
Kimi K2.5 — одна з небагатьох моделей у відкритому доступі, що підтримують «передові стандарти»: 256K контексту, багатокруговий виклик інструментів, візуальний ввід та структуровані виходи. Для агентських задач, що вимагають довгого аналізу тексту, ці характеристики дуже корисні.
Інженери Cloudflare у середовищі OpenCode використовують Kimi K2.5 як основний інструмент для програмування агентів, зокрема запустили відкритий агент для автоматичної перевірки коду під назвою «Bonk», інтегрований у автоматизовані пайплайни.
Ще більш вражаючий сценарій — внутрішній аудит безпеки. Цей агент щодня обробля понад 7 мільярдів токенів. Якщо б використовували стандартну комерційну модель, річні витрати склали б близько 2,4 мільйона доларів. З переходом на Kimi K2.5 ці витрати знизилися на 77%, економлячи майже 1,85 мільйона доларів.
Це не реклама — інженери Cloudflare прямо оприлюднили цю цифру у блозі.
Просто заміна моделі недостатньо, тому Cloudflare запустила три додаткові оновлення платформи, спрямовані на зменшення витрат і підвищення ефективності у сценаріях довгих діалогів:
Cloudflare не використовує готові фреймворки для інференсу, а створила власний інфраструктурний движок Infire, що дозволяє кастомізувати ядро. Він підтримує паралельну обробку даних, тензорну паралельність і експертну паралельність, а також роздільну архітектуру обробки префіксів.
Зараз Kimi K2.5 — перший великий кейс інференсу моделей на Workers AI, що демонструє амбіції Cloudflare у сфері AI-інфраструктури: вона може працювати з мережею і при цьому бути економічно вигідною.