Theo các báo cáo, các nhà nghiên cứu NVIDIA và MIT đã phát hành Lightning OPD (Offline On-Policy Distillation), một khung hậu huấn luyện mới cho các mô hình ngôn ngữ lớn giúp loại bỏ nhu cầu phải giữ mô hình “teacher” chạy liên tục trong quá trình huấn luyện. Bằng cách tính trước log-probabilities của mô hình teacher ở chế độ offline, khung này cải thiện hiệu quả huấn luyện gấp 4 lần đồng thời giải phóng toàn bộ tài nguyên GPU cho việc huấn luyện mô hình “student”.
Trong thử nghiệm trên 8 GPU NVIDIA H100, Lightning OPD đã chưng cất thành công Qwen3-30B-A3B-Base (một mô hình MoE với 30 tỷ tham số) và đạt 71,0 trên benchmark AIME 2024, trong khi OPD chuẩn bị tràn bộ nhớ trên cùng phần cứng. Với mô hình Qwen3-8B nhỏ hơn, khung chỉ cần 30 giờ GPU để đạt 69,9 điểm.
Related News
Thinking Machines ra mắt mô hình AI tương tác theo thời gian thực, nhấn mạnh “vừa nói vừa nghe vừa thực thi công việc”
Google: Mô hình ngôn ngữ lớn được dùng cho các cuộc tấn công thực tế, AI có thể vượt qua cơ chế bảo mật xác thực hai lớp
Anthropic: Huấn luyện văn bản khoa học viễn tưởng cho Claude Opus 4, tỷ lệ tống tiền lên tới 96%