Cloudflare tích hợp Kimi K2.5, chạy 7 tỷ token mỗi ngày, tiết kiệm 77% chi phí kiểm tra bảo mật

動區BlockTempo

2026-03-24 09:25:29

Nền tảng Workers AI của Cloudflare chính thức tích hợp Kimi K2.5 của Moonshot AI, hỗ trợ ngữ cảnh 256K, gọi công cụ nhiều vòng và nhập dữ liệu hình ảnh. Nhân viên kiểm tra an ninh nội bộ của Cloudflare xử lý hơn 7 tỷ token mỗi ngày, sau khi chuyển đổi, chi phí giảm 77% so với mô hình thương mại trung bình.
(Thông tin trước đó: Cursor dùng Kimi K2.5 để huấn luyện mô hình nhưng không nói rõ, các nhà phát triển bắt gói dữ liệu, xóa đề xuất, và các chuyển hướng đột ngột của chính thức đều được ghi lại đầy đủ)
(Bổ sung nền tảng: Cloudflare giới thiệu API “Tổng thể quét trang web bằng một cú nhấp” để chặn crawler, hoàn hảo hỗ trợ RAG, cập nhật gia tăng và huấn luyện mô hình)

Mục lục bài viết

Chuyển đổi

Một ngày xử lý 7 tỷ token của nhân viên kiểm tra an ninh
Cloudflare giới thiệu ba cải tiến
Động cơ suy luận nền: Infire hỗ trợ, không cứng nhắc theo khung sẵn có

Nền tảng Workers AI của Cloudflare âm thầm làm một việc lớn, theo blog chính thức của Cloudflare, đã đặt Kimi K2.5 của Moonshot AI làm mô hình mặc định cho Agents SDK starter. Các kỹ sư của Cloudflare cũng đang sử dụng nó để chạy các nhiệm vụ kiểm tra an ninh thực tế, đồng thời tiết kiệm rất nhiều chi phí.

Kimi K2.5 là một trong số ít các mô hình trong cộng đồng mã nguồn mở đạt tiêu chuẩn tiên tiến, hỗ trợ khung nhìn ngữ cảnh 256K, gọi công cụ nhiều vòng (multi-turn tool calling), nhập dữ liệu hình ảnh và xuất dữ liệu có cấu trúc. Đối với các nhiệm vụ Agent đòi hỏi suy luận dài, các con số này đã rất hữu ích.

Một ngày xử lý 7 tỷ token của nhân viên kiểm tra an ninh

Các kỹ sư của Cloudflare đã trực tiếp sử dụng Kimi K2.5 làm trung tâm cho Agent lập trình trong môi trường OpenCode, đồng thời triển khai một Agent kiểm tra mã nguồn công khai tên là “Bonk”, tích hợp vào pipeline tự động.

Điều đặc biệt hơn là trong các cảnh kiểm tra an ninh nội bộ. Agent này xử lý hơn 7 tỷ token mỗi ngày. Nếu dùng mô hình thương mại tiêu chuẩn để xử lý cùng khối lượng công việc này, chi phí trong một năm khoảng 2,4 triệu USD. Sau khi chuyển sang Kimi K2.5, chi phí giảm trực tiếp 77%, tiết kiệm gần 1,85 triệu USD.

Con số này không phải để quảng cáo, mà là kết quả trực tiếp mà các kỹ sư của Cloudflare công bố trên blog chính thức.

Cloudflare giới thiệu ba cải tiến

Chỉ đổi mô hình chưa đủ, Cloudflare còn đồng thời ra mắt ba cải tiến ở cấp nền tảng, nhằm giải quyết vấn đề về chi phí và hiệu quả trong các cảnh đối thoại dài của Agent:

Giảm giá bộ nhớ đệm tiền tố (Prefix Caching): Các token đã xử lý trong cuộc đối thoại nhiều vòng không bị tính phí lại, token trong bộ nhớ đệm được hưởng giá ưu đãi. Với các nhiệm vụ dài, khoản tiết kiệm này rất đáng kể.
Tiêu đề phân phối phiên (Session Affinity Header): Thêm tiêu đề yêu cầu x-session-affinity, giúp định tuyến cùng một phiên tới cùng một mô hình, tăng tỷ lệ bộ nhớ đệm trúng. OpenCode và Agents SDK starter đã tích hợp sẵn hỗ trợ.
API suy luận theo lô không đồng bộ: Các yêu cầu vượt quá giới hạn tốc độ đồng bộ có thể xếp hàng thực thi không đồng bộ, thường hoàn thành trong vòng 5 phút khi thử nghiệm nội bộ. Phù hợp cho các tác vụ quét mã, nghiên cứu hoặc các Agent không cần phản hồi ngay lập tức.

Động cơ suy luận nền: Infire hỗ trợ, không cứng nhắc theo khung sẵn có

Cloudflare không sử dụng các khung suy luận có sẵn, mà tự phát triển động cơ suy luận Infire, tùy chỉnh theo nhu cầu, dựa trên xử lý dữ liệu song song, tensor song song và phân tích chuyên gia, kết hợp kiến trúc xử lý tiền tố tách rời.

Hiện tại, Kimi K2.5 là ví dụ đầu tiên về việc triển khai suy luận mô hình lớn trên Workers AI, đồng thời thể hiện tham vọng của Cloudflare trong hạ tầng AI, có thể phối hợp với nền tảng mạng và vẫn rất tiết kiệm.

Xem bản gốc

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bình luận

0/400

Không có bình luận