Nền tảng Workers AI của Cloudflare chính thức tích hợp Kimi K2.5 của Moonshot AI, hỗ trợ ngữ cảnh 256K, gọi công cụ nhiều vòng và nhập dữ liệu hình ảnh. Nhân viên kiểm tra an ninh nội bộ của Cloudflare xử lý hơn 7 tỷ token mỗi ngày, sau khi chuyển đổi, chi phí giảm 77% so với mô hình thương mại trung bình.
(Thông tin trước đó: Cursor dùng Kimi K2.5 để huấn luyện mô hình nhưng không nói rõ, các nhà phát triển bắt gói dữ liệu, xóa đề xuất, và các chuyển hướng đột ngột của chính thức đều được ghi lại đầy đủ)
(Bổ sung nền tảng: Cloudflare giới thiệu API “Tổng thể quét trang web bằng một cú nhấp” để chặn crawler, hoàn hảo hỗ trợ RAG, cập nhật gia tăng và huấn luyện mô hình)
Mục lục bài viết
Chuyển đổi
Nền tảng Workers AI của Cloudflare âm thầm làm một việc lớn, theo blog chính thức của Cloudflare, đã đặt Kimi K2.5 của Moonshot AI làm mô hình mặc định cho Agents SDK starter. Các kỹ sư của Cloudflare cũng đang sử dụng nó để chạy các nhiệm vụ kiểm tra an ninh thực tế, đồng thời tiết kiệm rất nhiều chi phí.
Kimi K2.5 là một trong số ít các mô hình trong cộng đồng mã nguồn mở đạt tiêu chuẩn tiên tiến, hỗ trợ khung nhìn ngữ cảnh 256K, gọi công cụ nhiều vòng (multi-turn tool calling), nhập dữ liệu hình ảnh và xuất dữ liệu có cấu trúc. Đối với các nhiệm vụ Agent đòi hỏi suy luận dài, các con số này đã rất hữu ích.
Các kỹ sư của Cloudflare đã trực tiếp sử dụng Kimi K2.5 làm trung tâm cho Agent lập trình trong môi trường OpenCode, đồng thời triển khai một Agent kiểm tra mã nguồn công khai tên là “Bonk”, tích hợp vào pipeline tự động.
Điều đặc biệt hơn là trong các cảnh kiểm tra an ninh nội bộ. Agent này xử lý hơn 7 tỷ token mỗi ngày. Nếu dùng mô hình thương mại tiêu chuẩn để xử lý cùng khối lượng công việc này, chi phí trong một năm khoảng 2,4 triệu USD. Sau khi chuyển sang Kimi K2.5, chi phí giảm trực tiếp 77%, tiết kiệm gần 1,85 triệu USD.
Con số này không phải để quảng cáo, mà là kết quả trực tiếp mà các kỹ sư của Cloudflare công bố trên blog chính thức.
Chỉ đổi mô hình chưa đủ, Cloudflare còn đồng thời ra mắt ba cải tiến ở cấp nền tảng, nhằm giải quyết vấn đề về chi phí và hiệu quả trong các cảnh đối thoại dài của Agent:
Cloudflare không sử dụng các khung suy luận có sẵn, mà tự phát triển động cơ suy luận Infire, tùy chỉnh theo nhu cầu, dựa trên xử lý dữ liệu song song, tensor song song và phân tích chuyên gia, kết hợp kiến trúc xử lý tiền tố tách rời.
Hiện tại, Kimi K2.5 là ví dụ đầu tiên về việc triển khai suy luận mô hình lớn trên Workers AI, đồng thời thể hiện tham vọng của Cloudflare trong hạ tầng AI, có thể phối hợp với nền tảng mạng và vẫn rất tiết kiệm.