Elon Musk khen ngợi: Thật ấn tượng! Vũ khí bí mật của mô hình AI Trung Quốc Kimi là gì?

ChainNewsAbmedia

Trung Quốc AI mới sáng tạo Moonshot AI gần đây đã công bố một báo cáo kỹ thuật về một mô hình mang tên Kimi, đề xuất một kiến trúc mới gọi là “Attention Residuals”, nhằm cố gắng viết lại thiết kế residual đã được sử dụng lâu dài trong Transformer. Sau khi báo cáo được phát hành không lâu, Elon Musk cũng đã bày tỏ trên mạng xã hội rằng “Impressive work from Kimi (Tác phẩm của Kimi thật ấn tượng)”, khiến công nghệ này nhanh chóng thu hút sự chú ý.

Trung Quốc AI mô hình Kimi mở rộng attention giữa các mô hình

Điểm chính của Kimi lần này thực ra là xử lý một cơ chế rất cốt lõi trong Transformer nhưng ít được xem xét lại: Residual Connection. Kể từ ResNet, hầu hết các mô hình đều cộng trực tiếp đầu ra của mỗi lớp trở lại, và các trọng số đều giống nhau. Cách làm này đơn giản và ổn định, nhưng khi mô hình trở nên rất sâu, vấn đề bắt đầu xuất hiện: thông tin tích lũy từ các lớp trước ngày càng nhiều, tín hiệu mới lại khó phát huy tác dụng, thậm chí có thể bị lấn át, khiến việc huấn luyện mô hình trở nên khó khăn hơn.

Cách làm của Kimi là mở rộng cơ chế attention từ việc dùng trong “giữa các token” sang “giữa các lớp của mô hình”. Trong Attention Residuals, mỗi lớp không còn nhận trung bình tất cả thông tin từ các lớp trước nữa, mà thông qua attention để “lựa chọn” các lớp quan trọng hơn. Nói cách khác, mô hình không chỉ cộng dồn liên tục nữa, mà còn chủ động chọn lọc thông tin hữu ích dựa trên đầu vào hiện tại.

Kimi thành công trong việc nâng cao hiệu quả 1.25 lần mà không làm tăng độ trễ suy luận

Tuy nhiên, nếu mỗi lớp đều xem xét tất cả các lớp lịch sử, chi phí sẽ quá cao. Vì vậy, Kimi đề xuất một phương pháp cân bằng gọi là Block Attention Residuals: chia mô hình thành một số khối, trong đó giữ nguyên cách cộng dồn ban đầu, còn giữa các khối mới dùng attention để chọn lọc. Cách này vừa giữ được khả năng “lựa chọn thông tin”, vừa giảm đáng kể bộ nhớ và tải tính toán, có thể áp dụng trực tiếp vào các mô hình hiện có.

Kết quả cho thấy, Kimi trên một mô hình lớn gần như không làm tăng độ trễ suy luận (dưới 2%), nhưng lại mang lại khoảng 1.25 lần hiệu quả cao hơn, đồng thời đạt tiến bộ trên nhiều chỉ số kiểm tra. Điều này cho thấy phương pháp này không chỉ mang tính lý thuyết đẹp mắt mà còn có giá trị thực tiễn. Trước đây, attention chủ yếu giải quyết mối quan hệ giữa các từ, còn Kimi còn giúp mô hình bắt đầu suy nghĩ về “thông tin nào cần dùng giữa các lớp khác nhau”.

Nói đơn giản, mô hình không chỉ đọc dữ liệu mà còn bắt đầu học cách quay lại tìm kiếm những nội dung đã tính toán trước đó.

Bài viết này, Elon Musk khen ngợi: “Ấn tượng sâu sắc! Bí mật của mô hình AI Kimi của Trung Quốc là gì?” Ban đầu xuất hiện trên Chain News ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận