Cloudflare после подключения Kimi K2.5 обрабатывает 7 миллиардов токенов в день, сокращая затраты на безопасность аудита на 77%

動區BlockTempo

Платформа Workers AI от Cloudflare тихо реализовала важное нововведение: в соответствии с официальным блогом Cloudflare, модель Kimi K2.5 из Moonshot AI стала моделью по умолчанию для стартового набора SDK Agents. Сами инженеры Cloudflare используют её для выполнения реальных задач по безопасной проверке, при этом значительно экономя средства.

Kimi K2.5 — одна из немногих моделей в открытом сообществе, соответствующих передовым стандартам, поддерживающих окно контекста в 256K, мульти-тур вызовов инструментов, визуальный ввод и структурированный вывод. Для задач агентской логики, требующих длинных рассуждений, эти показатели уже весьма практичны.

Безопасный агент, обрабатывающий 7 миллиардов токенов в день

Инженеры Cloudflare прямо в среде OpenCode используют Kimi K2.5 в качестве основного инструмента для программных агентов, а также развернули публичного агента для автоматической проверки кода под названием «Bonk», интегрированного в автоматизированные пайплайны.

Еще более впечатляющим является сценарий внутренней безопасной проверки. Этот агент ежедневно обрабатывает более 7 миллиардов токенов. Если бы использовать стандартную коммерческую модель для такого объема, годовая стоимость составила бы примерно 2,4 миллиона долларов. После перехода на Kimi K2.5 расходы снизились на 77%, что позволило сэкономить почти 1,85 миллиона долларов.

Эти цифры не рекламный трюк — их прямо опубликовали инженеры Cloudflare в официальном блоге.

Три улучшения от Cloudflare

Просто смены модели недостаточно, поэтому Cloudflare одновременно внедрила три улучшения на уровне платформы, специально ориентированные на снижение затрат и повышение эффективности при длительных диалогах агентов:

  • Кэширование префиксов (Prefix Caching): входные токены, уже обработанные в мульти-туре, не считаются повторно, а при попадании в кэш — получают скидку. В долгих задачах это значительно экономит деньги.
  • Заголовок Session Affinity: добавлен новый заголовок x-session-affinity, который маршрутизирует один и тот же сеанс к одному и тому же модели, повышая вероятность попадания в кэш. Поддержка встроена в OpenCode и Agents SDK starter.
  • Асинхронный API пакетной инференции: запросы, превышающие лимит синхронной скорости, могут быть поставлены в очередь и выполнены асинхронно. Обычно внутренние тесты завершаются в течение 5 минут. Это подходит для задач сканирования кода и исследований, где не требуется мгновенный отклик.

Глубинный движок инференса: Infire в основе, а не готовая рамочная система

Cloudflare не использовала готовые решения для инференса, а создала собственный движок Infire, который был доработан под их нужды. Он использует параллельную обработку данных, тензорную параллельность и экспертную параллелизацию, а также разделённую архитектуру обработки префиксов.

На данный момент Kimi K2.5 — первый крупномасштабный пример инференса моделей на платформе Workers AI, что демонстрирует амбиции Cloudflare в области инфраструктуры ИИ. Она может интегрироваться с сетевыми платформами и при этом оставаться очень недорогой.

Посмотреть Оригинал
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев