Tập đoàn Rakuten hôm nay đã công bố Rakuten AI 3.0, quảng cáo là “mô hình AI hiệu năng cao lớn nhất Nhật Bản”, tuyên bố tự phát triển mô hình MoE 671B tham số và hoàn toàn mở mã miễn phí, nhưng chỉ sau vài giờ, cộng đồng đã phát hiện ra file config.json trên HuggingFace ghi rõ model_type: deepseek_v3, chính là phiên bản tinh chỉnh tiếng Nhật của DeepSeek V3.
(Tiểu sử: Bloomberg: DeepSeek nổi lên mạnh mẽ, Trung Quốc đang tạo ra “mối đe dọa lớn” đối với vị thế bá chủ AI của Mỹ)
(Bổ sung bối cảnh: DeepSeek V4 tuyên bố từ bỏ Nvidia! Cuộc chiến “độc lập về sức mạnh tính toán” của AI Trung Quốc đã đi đến đâu?)
Người sáng lập kiêm CEO của tập đoàn Rakuten, Hiroshi Mikitani, hôm nay đã công khai ra mắt Rakuten AI 3.0, định vị là “mô hình AI hiệu năng cao lớn nhất Nhật Bản”, hoàn toàn mở mã miễn phí theo giấy phép Apache 2.0, tuyên bố vượt qua GPT-4o trong nhiều bài kiểm tra tiêu chuẩn tiếng Nhật. Chỉ chưa đầy vài giờ sau khi công bố, cộng đồng đã phát hiện ra một chi tiết gây khó xử.
Mở trang mô hình trên HuggingFace, file config.json ghi rõ ràng: model_type: deepseek_v3, architectures: DeepseekV3ForCausalLM.
Tổng số tham số 671B, kích hoạt suy luận 37B, cửa sổ ngữ cảnh 128K, mỗi con số đều hoàn toàn khớp với DeepSeek V3. Nói cách khác, Rakuten AI 3.0 không phải là mô hình tự phát triển của riêng họ, mà là dựa trên DeepSeek V3, sau đó tinh chỉnh bằng dữ liệu tiếng Nhật.
Điều đáng chú ý hơn nữa là danh tính chính thức của mô hình này. Rakuten AI 3.0 là thành quả của dự án GENIAC (Generative AI Accelerator Challenge) do Bộ Kinh tế, Thương mại và Công nghiệp Nhật Bản (METI) phối hợp cùng Tổ chức Phát triển Công nghệ Năng lượng Mới (NEDO) thúc đẩy, được chính phủ Nhật Bản hỗ trợ một phần về năng lực tính toán để huấn luyện.
Trong thông báo, Rakuten chỉ đề cập chung chung rằng “tận dụng tối đa thành quả xuất sắc của cộng đồng mã nguồn mở” làm nguồn gốc mô hình cơ sở, không đề cập đến DeepSeek.
DeepSeek V3 được phát hành vào tháng 12 năm 2024, là mô hình mở mã cao cấp của công ty AI Trung Quốc, DeepSeek. Chi phí huấn luyện chỉ khoảng 5-6 triệu USD, rẻ hơn hơn 20 lần so với GPT-4, nhưng trong nhiều bài kiểm tra tiêu chuẩn, đã ngang bằng hoặc vượt qua các mô hình hàng đầu đóng mã, gây chấn động trong giới AI.
Vì DeepSeek sử dụng giấy phép mở mã Apache 2.0, ai cũng có thể dùng để thương mại, tinh chỉnh, phát hành lại mà không gặp vấn đề pháp lý. Nhưng “hợp pháp” và “minh bạch” là hai chuyện khác nhau.
Thông số cấu hình của Rakuten AI 3.0:
Ảnh hưởng của DeepSeek đã len lỏi vào một tầng ý nghĩa thú vị: các tập đoàn thương mại điện tử lớn của Nhật như Rakuten, nhận lực lượng tính toán được chính phủ trợ cấp, chạy tinh chỉnh mô hình mã nguồn mở của Trung Quốc rồi gắn thương hiệu của mình để phát hành. DeepSeek không tốn chi phí marketing, nhưng lại trở thành hình thức quảng cáo tốt nhất.